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内 容 简 介 


这 是 一 个 大 数据 爆发 的 时 代 。 面 对 信息 的 激流 、 多 元 化 数据 的 涌现 ,大 数据 已 经 为 个 人 生活 、 企 业 
经 营 , 甚 至 国家 与 社会 的 发 展 带 来 了 机 遇 和 挑战 ,大 数据 已 经 成 为 信息 产业 中 最 具 潜 力 的 蓝海 。 

大 数据 可 视 化 这 种 新 的 视觉 表达 形式 是 应 信息 社会 蓬勃 发 展 而 出 现 的 一 一 因为 我 们 不 仅 要 呈现 世 
界 ,更 重要 的 是 通过 呈现 来 处 理 更 庞大 的 数据 ,理解 各 种 各 样 的 数据 集合 .表现 多 维 数据 之 间 的 关联 。 换 
句 话说 ,就 是 归纳 数据 内 在 的 模式 .关联 和 结构 。 复 杂 数 据 可 视 化 既 涉 及 科学 也 有 关 设 计 , 它 的 艺术 性 实 
际 上 是 使 用 独特 手法 展示 万 千 世 界 的 某 个 局 部 ,从 而 提出 问题 。 大 数据 可 视 化 ,位 于 科学 .设计 和 艺术 三 
学 科 的 交叉 领域 (准确 地 说 ,应 该 是 位 于 三 个 不 同 维度 的 人 类 活动 的 交叉 领域 ) ,蕴藏 着 无 限 的 可 能 性 。 

大 数据 可 视 化 是 一 门 理论 性 和 实践 性 都 很 强 的 课程 。 本 书 根据 计算 机 、 信 息 管理 ,经 济 管理 和 其 他 
相关 专业 学 生 的 发 展 需求 ,系统 、 全 面 地 介绍 了 关于 大 数据 技术 及 其 可 视 化 的 基本 知识 和 技能 ,详细 介 
绍 了 大 数据 与 大 数据 时 代 数据 可 视 化 之 美 .数据 可 视 化 工具 .Excel 数据 可 视 化 方法 .Excel 数据 可 视 化 
应 用 ,数据 引导 可 视 化 设计 、 数 据 可 视 化 的 过 程 . 数 据 可 视 化 组 织 .Tableau 数据 可 视 化 人 门 .Tableau 数 
据 可 视 化 设计 以 及 课程 设计 与 实验 总 结 等 内 容 , 共 11 章 , 各 章 还 配套 设计 了 导读 案例 .延伸 阅读 、 实 验 
与 思考 等 部 分 ,具有 较 强 的 系统 性 、 可 读 性 和 实用 性 。 

本 书 是 为 高 等 院 校 相关 专业 “大 数据 可 视 化 ”“ 数 据 媒体 设计 ”等 课程 全 新 设计 编写 的 ,具有 丰富 实 
践 特色 的 主教 材 , 也 可 供 有 一 定 实践 经 验 的 软件 开发 人 员 ,管理 人 员 作 为 参考 和 继续 教育 的 教材 。 

与 本 书 配套 的 教学 PPT 课件 等 文档 可 从 清华 大 学 出 版 社 网 站 (www. tup. com. cn) 的 下 载 区 下 载 ， 
欢迎 读者 与 作者 交流 并 索取 本 书 教学 配套 的 相关 资料 。 邮 箱 : zhousu@qq. com,QQ: 81505050, 个 人 博 
客 : http://blog. sina. com. cn/zhousu58。 
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上 四 加 辐 


大 数据 (Big Data) 的 力量 ,正在 积极 地 影响 着 我 们 社会 的 方方面面 , 它 冲 击 着 各 行 各 
业 , 同 时 也 正在 彻底 地 改变 我 们 的 学 习 和 日 常生 活 。 如 今 ,通过 简单 、 易 用 的 移动 应 用 和 
基于 云端 的 数据 服务 ,我 们 就 能 够 追踪 自己 的 行为 以 及 饮食 习惯 ,还 能 提升 个 人 的 健康 状 
况 。 因 此 ,我 们 有 必要 真正 理解 大 数据 这 个 极其 重要 的 议题 。 

然而 , 仅 有 数据 是 不 够 的 。 对 于 身 处 大 数据 时 代 的 企业 而 言 ,成 功 的 关键 还 在 于 找 出 
大 数据 所 隐 含 的 真知 灼 见 。“ 以 前 ,人 们 总 说 信息 就 是 力量 ,但 如 今 ,对 数据 进行 分 析 、 利 
用 和 挖掘 才 是 力量 之 所 在 。” 

大 数据 可 视 化 这 种 新 的 视觉 表达 形式 是 应 信息 社会 蓬勃 发 展 而 出 现 的 一 一 因为 我 们 
不 仅 要 呈现 世界 ,更 重要 的 是 通过 呈现 来 处 理 更 庞大 的 数据 ,理解 各 种 各 样 的 数据 集合 ， 
表现 多 维 数据 之 间 的 关联 。 换 名 话说 ,就 是 归纳 数据 内 在 的 模式 ,关联 和 结构 。 复 杂 数 据 
可 视 化 既 涉及 科学 也 有 关 设 计 , 它 的 艺术 性 实际 上 是 使 用 独特 手法 展示 万 千 世 界 的 某 个 
局 部 ,从 而 提出 问题 。 大 数据 可 视 化 是 位 于 科学 、 设 计 和 艺术 三 学 科 的 交叉 领域 (准确 地 
说 ,应 该 是 位 于 三 个 不 同 维度 的 人 类 活动 的 交叉 领域 ) ,蕴藏 着 无 限 的 可 能 性 。 

对 于 在 校 大 学 生来 说 ,大 数据 及 其 可 视 化 的 理念 .技术 与 应 用 是 一 门 理论 性 和 实践 性 
都 很 强 的 “必修 "课程 。 在 长 期 的 教学 实践 中 ,我 们 体会 到 ,坚持 “因材施教 ”的 重要 原则 ， 
把 实践 环节 与 理论 教学 相 融 合 , 抓 实践 教学 促进 理论 知识 的 学 习 , 是 有 效 地 改善 教学 效果 
和 提高 教学 水 平 的 重要 方法 之 一 。 本 书 的 主要 特色 是 理论 联系 实际 ,结合 一 系列 了 解 和 
熟悉 大 数据 可 视 化 理念 .技术 与 应 用 的 学 习 和 实践 活动 ,把 大 数据 可 视 化 的 相关 概念 、 基 
础 知识 和 技术 技巧 融入 在 实践 当中 ,使 学 生 保持 浓厚 的 学 习 热情 ,加 深 对 大 数据 及 其 可 视 
化 技术 的 兴趣 认识、 理解 和 掌握 。 

本 书 是 为 高 等 院 校 相关 专业 ,尤其 是 计算 机 、 信 息 管理 ` 经 济 管理 类 专业 开设 “大 数 
据 ? 相 关 课 程 而 全 新 设计 编写 的 ,具有 丰富 实践 特色 的 主教 材 , 也 可 供 有 一 定 实践 经 验 的 
IT 应 用 人 员 、 管 理 人 员 作为 参考 和 继续 教育 的 教材 。 

本 书 系统 ,全 面 地 介绍 了 大 数据 可 视 化 的 基本 知识 和 应 用 技能 ,详细 介绍 了 大 数据 与 
大 数据 时 代 、 数 据 可 视 化 之 美 . 数 据 可 视 化 工具 、Excel 数据 可 视 化 方法 、Excel 数据 可 视 
化 应 用 ,数据 引导 可 视 化 设计 数据 可 视 化 的 过 程 . 数 据 可 视 化 组 织 、Tableau 数据 可 视 化 
入 门 、Tableau 数据 可 视 化 设计 以 及 课程 设计 与 实验 总 结 等 内 容 , 共 11 章 , 具 有 较 强 的 系 
统 性 、 可 读 性 和 实用 性 。 

结合 课堂 教学 方法 改革 的 要 求 ,全 书 设计 了 课程 教学 过 程 , 每 章 教学 内 容 都 有 针对 性 
地 安排 了 导读 案例 ,延伸 阅读 和 课 后 实验 与 思考 等 环节 ,要 求 和 指导 学 生 在 课 前 、 课 后 阅 


肉色 昌林 钢 呈 


读 课文 ,网络 搜索 浏览 的 基础 上 ,延伸 阅读 ,深入 理解 课程 知识 内 涵 。 

本 课程 的 教学 进度 设计 见 “ 课 程 教学 进度 表 ”。 实 际 执行 时 ,应 按照 教学 大 纲 编排 教 
学 进度 ,按照 校 历 考虑 本 学 期 节假日 安排 ,实际 确定 本 课程 的 教学 进度 。 

本 课程 的 教学 评测 可 以 从 以 下 几 个 方面 人 手 , 即 : 

(1) 每 章 的 导读 案例 (10 次 ); 

(2) 每 章 的 实验 与 思考 (10 次 ); 

(3) 课程 设计 与 实验 总 结 (第 11 章 ); 

(4) 平时 考勤 ; 

(5) 任课 老师 认为 必要 的 其 他 考核 方法 。 

与 本 书 配套 的 教学 PPT 课件 等 文档 可 从 清华 大 学 出 版 社 网 站 (www. tup. com. cn) 
的 下 载 区 下 载 ,欢迎 教师 与 作者 交流 并 索取 为 本 书 教学 配套 的 相关 资料 。 邮 编 : zhousu 
@qq. com,QQ: 81505050, 个 人 博客 : http://blog. sina. com. cn/zhousu58 。 

本 书 的 编写 得 到 了 浙江 大 学 城市 学 院 \ 浙 江 商 业 职 业 技 术 学 院 等 多 所 院 校 的 支持 ， 
吴 林 华 、 阅 晓 初 等 参与 了 本 书 的 部 分 编写 工作 ,在 此 一 并 表示 感谢 ! 


周 苏 
2016 年 春节 于 西子 湖畔 
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序号 | 校 历 周 次 | 章节 (或 实验 .习题 课 等 ) 名 称 与 内 容 | 学 时 | 教学 方法 课 后 作业 布置 
Y 1 引言 与 第 1 章 ”大 数据 与 大 数据 时 代 2 

2 2 第 1 章 大 数据 与 大 数据 时 代 2 实验 与 思考 
3 3 第 2 章 数据 可 视 化 之 美 2 实验 与 思考 
4 4 第 3 章 数据 可 视 化 工具 2 实验 与 思考 
5 5 第 4 章 ” Excel 数据 可 视 化 方法 2 实验 与 思考 
6 6 第 5 章 ” Excel 数据 可 视 化 应 用 2 

7 第 5 章 ” Excel 数据 可 视 化 应 用 2 实验 与 思考 
8 8 第 6 章 数据 引导 可 视 化 设计 2 呈 访 案例 

9 9 第 6 章 数据 引导 可 视 化 设计 2 | 课堂 教学 实验 与 思考 

10 10 第 7 章 数据 可 视 化 的 过 程 2 延伸 阅读 

11 11 第 7 章 数据 可 视 化 的 过 程 2 实验 与 思考 

12 12 第 8 章 数据 可 视 化 组 织 2 

13 13 第 8 章 数据 可 视 化 组 织 2 实验 与 思考 

14 14 第 9 章 Tableau 数据 可 视 化 入 门 2 实验 与 思考 

15 15 第 10 章 Tableau 数据 可 视 化 设计 2 

16 16 第 10 章 ”Tableau 数据 可 视 化 设计 2 实验 与 思考 

17 1 第 11 章 课程 设计 与 实验 总 结 2 课程 设计 与 实验 总 结 
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大 数据 与 大 数据 时 代 


【导读 案例 】 
亚 马 迎 推荐 系统 


虽然 亚马逊 的 故事 大 多 数 人 都 耳熟能详 ,但 只 有 少数 人 知道 它 早 期 的 书评 内 容 其 实 
是 由 人 工 完 成 的 。 当 时 ,亚马逊 公司 聘请 了 一 个 由 二 十 多 名 书评 家 和 编辑 组 成 的 团队 ,他 
们 写 书 评 、 推 荐 新 书 ,挑选 非常 有 特色 的 新 书 标题 放 在 亚马逊 的 网 页 上 。 这 个 团队 创立 了 
“亚马逊 的 声音 ”这 个 版 块 , 成 为 当时 公司 皇冠 上 的 一 颗 宝石 ,是 其 竞争 优势 的 重要 来 源 。 
《华尔街 日 报 》 的 一 篇 文章 中 热情 地 称 他 们 为 全 美 最 有 影响 力 的 书评 家 ,因为 他 们 使 得 书 
籍 销量 猛 增 。 

亚马逊 公司 的 创始 人 及 总 裁 杰 夫 。 贝 索 斯 决定 尝试 一 个 极 富 创造 力 的 想法 : 根据 客 
户 个 人 以 前 的 购物 喜好 ,为 其 推荐 相关 的 书籍 。 

从 一 开始 ,亚马逊 就 从 每 一 个 客户 那里 收集 了 大 量 的 数据 。 比 如 说 : 他 们 购买 了 什 
么 书籍 ? 哪些 书 他 们 只 浏览 却 没有 购买 ? 他 们 浏览 了 多 久 ? 哪些 书 是 他 们 一 起 购买 的 ? 
客户 的 信息 数据 量 非常 大 ,所 以 亚马逊 必须 先 用 传统 的 方法 对 其 进行 处 理 ,通过 样本 分 析 
找到 客户 之 间 的 相似 性 。 但 这 些 推 荐 信息 是 非常 原始 的 ,就 如 同 你 在 买 一 件 婴儿 用 品 时 ， 
会 被 海 没 在 一 堆 差不多 的 婴儿 用 品 中 一 样 。 麻 姆 断 。 马 库 斯 回忆 说 :“ 推 荐 信息 往往 为 
你 提供 与 你 以 前 购买 物品 有 微小 差异 的 产品 ,并 且 循环 往复 。” 

亚马逊 的 格雷 格 。 林 登 很 快 就 找到 了 一 个 解决 方案 。 他 意识 到 ,推荐 系统 实际 上 并 
没有 必要 把 顾客 与 其 他 顾客 进行 对 比 , 这 样 做 在 技术 上 也 比较 繁琐 。 它 需要 做 的 是 找到 
产品 之 间 的 关联 性 。1998 年 , 林 登 和 他 的 同事 申请 了 著名 的 item-to-item 协同 过 滤 技 术 
的 专利 。 方 法 的 转变 使 技术 发 生 了 翻天 履 地 的 变化 。 

因为 估算 可 以 提前 进行 ,所 以 推荐 系统 不 仅 快 ,而 且 适 用 于 各 种 各 样 的 产品 。 因 此 ， 
当 亚 马 进 跨 界 销售 除 书 以 外 的 其 他 商品 时 ,也 可 以 对 电影 或 烤 面 包机 这 些 产品 进行 推荐 。 
由 于 系统 中 使 用 了 所 有 的 数据 ,推荐 会 更 理想 。 林 登 回忆 道 :“ 在 组 里 有 身 玩 笑话 ,说 的 
是 如 果 系 统 运作 良 好 ,亚马逊 应 该 只 推荐 你 一 本 书 ,而 这 本 书 就 是 你 将 要 买 的 下 一 本 书 。” 

现在 ,公司 必须 决定 什么 应 该 出 现在 网 站 上 ,是 亚马逊 内 部 书评 家 写 的 个 人 建议 和 评 
论 , 还 是 由 机 器 生成 的 个 性 化 推荐 和 畅销 书 排行 榜 ? 

林 登 做 了 一 个 关于 评论 家 所 创造 的 销售 业绩 和 计算 机 生成 内 容 所 产生 的 销售 业绩 的 
对 比 测试 ,结果 他 发 现 两 者 之 间 相 差 其 远 。 他 解释 说 ,通过 数据 推荐 产品 所 增加 的 销售 远 
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远 超 过 书评 家 的 贡献 。 计 算 机 可 能 不 知道 为 什么 喜欢 海明威 作品 的 客户 会 购买 菲 
英杰 拉 德 8 的 书 。 但 是 这 似乎 并 不 重要 ,重要 的 是 销量 。 最 后 ,编辑 们 看 到 了 销售 额 
分 析 ,亚马逊 也 不 得 不 放弃 每 次 的 在 线 评论 ,最 终 , 书 评 组 被 解散 了 。 林 登 回 忆 说 : 
“书评 团队 被 打败 、 被 解散 ,我 感到 非常 难过 。 但 是 ,数据 没有 说 说 ,人 工 评论 的 成 本 
是 非常 高 的 。” 

如 今 , 据 说 亚马逊 销售 额 的 三 分 之 一 都 来 自 于 它 的 个 性 化 推荐 系统 。 有 了 它 ,亚马逊 
不 仅 使 很 多 大 型 书店 和 音乐 唱片 商店 歇业 ,而 且 当 地 数 百 个 自 认 为 有 自己 风格 的 书 商 也 
难免 受 转 型 之 风 的 影响 。 

知道 人 们 为 什么 对 这 些 信息 感 兴趣 可 能 是 有 用 的 ,但 这 个 问题 目前 并 不 是 很 重要 ,而 
知道 “是 什么 ”可 以 创造 点 击 率 , 这 种 洞察 力 足以 重 塑 很 多 行业 ,不 仅仅 只 是 电子 商务 。 所 
有 行业 中 的 销售 人 员 早 就 被 告知 ,他 们 需要 了 解 是 什么 让 客户 做 出 了 选择 ,要 把 握 客户 做 
决定 背后 的 真正 原因 ,因此 专业 技能 和 多 年 的 经 验 受 到 高 度 重视 。 大 数据 却 显示 ,还 有 田 
外 一 个 在 某 些 方面 更 有 用 的 方法 。 亚 马 过 的 推荐 系统 梳理 出 了 有 趣 的 相关 关系 ,但 不 知 
道 背后 的 原因 一 一 知道 是 什么 就 够 了 , 没 必要 知道 为 什么 。 

阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 

(1) 你 了 解 亚马逊 等 电 商 网 站 的 推荐 系统 吗 ? 请 列举 一 个 这 样 的 实例 (你 选择 购买 
什么 商品 ,网 站 又 给 你 推荐 了 其 他 什么 商品 ) 。 

答 : 

















(2) 亚 马 进 书 评 组 和 林 登 推荐 系统 各 自 成 功 的 基础 是 什么 ? 
答 : 

















(3) 为 什么 书评 组 最 终 输 给 了 推荐 系统 ? 请 说 说 你 的 观点 。 
答 : 











四 欧 内 斯 特 。 米 勒 尔 。 海明威 (1899 年 7 月 21 日 一 1961 年 7 月 2 日 ), 美 国 小 说 家 ,被 誉 为 美利坚 民族 的 精神 丰 
碑 。 出 生 于 美国 伊利 诺 伊 州 芝加哥 市 郊区 的 奥 克 帕 克 , 晚 年 在 爱 达 荷 州 凯 彻 姆 的 家 中 自杀 身亡 。 海 明 威 的 代表 作 有 (《 老 
人 与 海 )《 太 阳 照 样 升 起 )《 永 别 了 ,武器 ) 人 《丧钟 为 谁 而 鸣 )} 等 ,他 凭借 (老人 与 海 ) 获 得 1953 年 普 利 策 奖 及 1954 年 诺 贝 
尔 文学 奖 。 海 明 威 的 作品 标志 着 他 独特 创作 风格 的 形成 ,在 美国 文学 史 乃 至 世界 文学 史上 都 占有 重要 地 位 。 

回 “” 菲 茨 杰 拉 德 ,美国 小 说 家 。1920 年 出 版 了 长 篇 小 说 (人 间 天 堂 ), 从 此 出 名 。1925 年 6 了 不 起 的 盖 茨 比 ) 问 世 , 芮 
定 了 他 在 现代 美国 文学 史上 的 地 位 ,他 成 为 了 20 世纪 20 年 代 “ 锁 士 时 代 ” 的 发 言 人 和 “ 迷 届 的 一 代 ” 的 代表 作家 之 一 。 
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(4) 请 简单 描述 你 所 知道 的 上 一 周 内 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 
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信息 社会 所 带 来 的 好 处 是 显而易见 的 : 每 个 人 口袋 里 都 揣 有 一 部 手机 ,每 台 办 公 桌 
上 都 放 着 一 台 计 算 机 ,每 间 办 公 室 内 都 连接 到 局 域 网 其 至 互联 网 。 半 个 世纪 以 来 , 随 着 计 
算 机 技术 全 面 和 深度 地 融入 社会 生活 ,信息 爆炸 已 经 积累 到 了 一 个 开始 引发 变革 的 程度 。 
它 不 仅 使 世界 充斥 着 比 以 往 更 多 的 信息 ,而 且 其 增长 速度 也 在 加 快 。 信 息 总 量 的 变化 还 
导致 了 信息 形态 的 变化 一 一 量变 引起 了 质变 。 

最 先 经 历 信息 爆炸 的 学 科 , 如 天 文学 和 基因 学 ,创造 出 了 “大 数据 "(Big Data) 这 个 概 
念 。 如 今 ,这 个 概念 几乎 应 用 到 了 所 有 人 类 致力 于 发 展 的 领域 中 。 


1.1.1 数据 与 信息 


数据 是 反映 客观 事物 属性 的 记录 ,是 信息 的 具体 表现 形式 。 数 据 经 过 加 工 处 理 之 后 ， 
就 成 为 信息 ;而 信息 需要 经 过 数字 化 ,转变 成 数据 才能 存储 和 传输 。 所 以 ,数据 和 信息 之 
间 是 相互 联系 的 。 

数据 和 信息 也 是 有 区 别 的 。 从 信息 论 的 观点 来 看 ,描述 信 源 的 数据 是 信息 和 数据 宛 
余 之 和 , 即 数据 二 信息 十 数据 宛 余 。 数 据 是 数据 采集 时 提供 的 ,信息 是 从 采集 的 数据 中 获 
取 的 有 用 信息 , 即 信息 可 以 简单 地 理解 为 数据 中 包含 的 有 用 的 内 容 。 

那么 ,数据 量 和 信息 量 之 间 会 有 什么 联系 呢 ? 是 不 是 数据 量 越 大 ,其 中 包含 的 信息 量 
就 越 多 呢 ? 不 一 定 。 例 如 ,有 人 说 “人 的 嘴巴 上 方 有 鼻子 ,鼻子 上 方 有 眼睛”, 因 为 这 是 预 
料 中 的 事 , 所 以 你 从 这 个 消息 中 得 到 的 信息 量 很 少 。 但 如 果 有 人 说 “人 的 鼻子 上 方 有 嘴 
巴 , 嘴 巴 上 方 有 了 眼睛 ”, 就 会 让 人 很 震惊 ,因为 这 是 预料 之 外 的 ,这 样 的 信息 量 就 很 大 。 这 
说 明了 : 一 个 消息 越 不 可 预测 , 它 所 含 的 信息 量 就 越 大 。 

事实 上 ,信息 的 基本 作用 就 是 消除 人 们 对 事物 了 解 的 不 确定 性 。 信 息 量 是 指 从 N 个 
相等 的 可 能 事件 中 选 出 一 个 事件 所 需要 的 信息 度量 和 含量 。 从 这 个 定义 看 ,信息 量 与 概 
率 是 密切 相关 的 。 


1.1.2 天 文学 一 一 信息 爆炸 的 起 源 
综合 观察 社会 各 个 方面 的 变化 趋势 .我 们 能 真正 意识 到 信息 爆炸 或 者 说 大 数据 的 时 
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代 已 经 到 来 。 以 天 文学 为 例 ,2000 年 斯 隆 数 字 巡 天 9 项 目 (图 1-1) 启 动 的 时 候 ,位 于 新 墨 
西 哥 州 的 望远镜 在 短 短 几 周 内 收集 到 的 数据 ,就 比 世 界 天 文学 历史 上 总 共 收 集 的 数据 还 
要 多 。 到 了 2010 年 ,信息 档案 已 经 高 达 1.4X22 字 节 。 不 过 ,预计 2016 年 在 智利 投入 使 
用 的 大 型 视 场 全 景 巡 天 望远镜 能 在 五 天 之 内 就 获得 同样 多 的 信息 。 





图 1-1 美国 斯 隆 数 字 巡 天 望远镜 


天 文学 领域 发 生 的 变化 在 社会 各 个 领域 都 在 发 生 。2003 年 ,人 类 第 一 次 破译 人 体 基 
因 密 码 的 时 候 , 辛 苦 工作 了 十 年 才 完 成 了 三 十 亿 对 碱 基 对 的 排序 。 大 约 十 年 之 后 ,世界 范 
围 内 的 基因 仪 每 15 分 钟 就 可 以 完成 同样 的 工作 。 在 金融 领域 ,美国 股市 每 天 的 成 交 量 高 
达 70 亿 股 ,而 其 中 2/3 的 交易 都 是 由 建立 在 数学 模型 和 算法 之 上 的 计算 机 程序 自动 完成 
的 ,这 些 程序 运用 海量 数据 来 预测 利益 和 降低 风险 。 

互联 网 公司 更 是 要 被 数据 淹没 了 。 谷 歌 公司 每 天 要 处 理 超 过 24 拍 字 节 (PB,2” 字 
节 ) 的 数据 ,这 意味 着 其 每 天 的 数据 处 理 量 是 美国 国家 图 书馆 所 有 纸 质 出 版 物 所 含 数据 量 
的 上 千 倍 。Facebook( 脸 书 ) 这 个 创立 不 过 十 来 年 的 公司 ,每 天 更 新 的 照片 量 超过 1000 万 
张 , 每 天 人 们 在 网 站 上 单 击 “喜欢 ”(Like) 按 钮 或 者 写 评论 大 约 有 三 十 亿 次 ,这 就 为 
Facebook 公司 挖掘 用 户 喜 好 提供 了 大 量 的 数据 线索 。 与 此 同时 ,谷歌 子 公 司 YouTube@ 
每 月 接待 多 达 8 亿 的 访客 ,平均 每 一 秒 钟 就 会 有 一 段 长 度 在 一 小 时 以 上 的 视频 上 传 。 推 
特 CTwitter)@ 上 的 信息 量 几乎 每 年 翻 一 番 ,每 天 都 会 发 布 超过 4 亿 条 微 博 。 

从 科学 研究 到 医疗 保险 ,从 银行 业 到 互联 网 ,各 个 不 同 的 领域 都 在 讲述 着 一 个 类 似 的 
故事 , 那 就 是 爆发 式 增长 的 数据 量 。 这 种 增长 超过 了 我 们 创造 机 器 的 速度 ,甚至 超过 了 我 
们 的 想象 。 人 类 存储 信息 量 的 增长 速度 比 世界 经 济 的 增长 速度 快 4 倍 , 而 计算 机 数据 处 


@ 斯 隆 数 字 巡 天 :是 位 于 新 墨西哥 州 阿 帕 奇 山 顶 天 文 台 的 2. 5 米 口径 望远镜 红 移 巡天 项 目 。 计 划 观 测 25% 的 
天 空 ,获取 超过 一 百 万 个 天 体 的 多 色 测 光 资 料 和 光谱 数据 。2006 年 ,斯 隆 数字 巡天 进入 了 名 为 SDSS- 工 的 新 阶段 , 进 
一 步 探索 银河 系 的 结构 和 组 成 ,而 斯 隆 超 新 星 巡 天 计划 搜寻 Ia 型 超新星 爆发 ,以 测量 宇宙 学 尺度 上 的 距离 。 

加 ”YouTube 是 世界 上 最 大 的 视频 网 站 ,于 2005 年 2 月 15 日 注册 ,早期 总 部 位 于 加 利 福 尼 亚 州 的 圣 布鲁诺 。 
2006 年 11 月 ,Google 公司 以 16. 5 亿美 元 收购 了 YouTube, 并 把 其 当做 一 间 子 公司 来 经 营 。 

加 “Twitter( 推 特 ) 是 一 家 美国 社交 网 络 及 微 博客 服务 的 网 站 ,是 全 球 互联 网 上 访问 量 最 大 的 十 个 网 站 之 一 ,其 
消息 也 被 称 作 “ 推 文 (Tweet)”。Twitter 被 形象 地 称 为 “互联 网 的 短信 服务 ”。 


蕴 由 多 因 本 量 梧 只 数 扎 量 的 


理 能 力 的 增长 速度 则 比 世 界 经 济 的 增长 速度 快 9 倍 。 难 怪人 们 会 抱怨 信息 过 量 , 因 为 每 
个 人 都 受到 了 这 种 极速 发 展 的 冲击 。 

以 纳米 技术 为 例 。 纳 米 技术 专注 于 把 东西 变 小 而 不 是 变 大 。 其 原理 就 是 当 事 物 到 达 
分 子 级 别 时 , 它 的 物理 性 质 就 会 发 生 改变 。 一 旦 知道 这 些 新 的 性 质 , 就 可 以 用 同样 的 原料 
来 做 以 前 无 法 做 的 事情 。 铜 本 来 是 用 来 导电 的 物质 ,但 它 一 旦 到 达 纳 米 级 别 就 不 能 在 磁 
场 中 导电 了 。 银 离子 具有 抗菌 性 ,但 当 它 以 分 子 形式 存在 的 时 候 , 这 种 性 质 会 消失 。 一 旦 
到 达 纳 米 级 别 , 金 属 可 以 变 得 柔软 ,陶土 可 以 具有 弹性 。 同 样 , 当 我 们 增加 所 利用 的 数据 
量 时 ,也 就 可 以 做 很 多 在 小 数据 量 的 基础 上 无 法 完成 的 事情 。 

有 了 时候, 我 们 认为 约束 自己 生活 的 那些 限制 ,对 于 世间 万 物 都 有 着 同样 的 约束 力 。 事 
实 上 ,尽管 规律 相同 ,但 是 我 们 能 够 感受 到 的 约束 很 可 能 只 对 我 们 这 样 尺度 的 事物 起 作 
用 。 对 于 人 类 来 说 ,唯一 一 个 最 重要 的 物理 定律 便 是 万 有 引力 定律 ,这 个 定律 无 时 无 刻 不 
在 控制 着 我 们 。 但 对 于 细小 的 昆虫 来 说 ,重力 却 可 能 无 关 紧 要 。 对 它们 而 言 , 物 理 宇宙 中 
有 效 的 约束 是 表面 张力 ,这 个 张力 可 以 让 它们 在 水 上 自由 行走 而 不 会 掉 下 去 ,但 人 类 对 于 
表面 张力 毫 不 在 意 。 

大 数据 的 科学 价值 和 社会 价值 正 是 体现 在 这 里 。 一 方面 ,对 大 数据 的 掌握 程度 可 以 
转化 为 经 济 价值 的 来 源 。 男 一 方面 .大 数据 已 经 撼动 了 世界 的 方方面面 ,从 商业 科技 到 医 
疗 、 政 府 、 教 育 、 经 济 、 人 文 以 及 社会 的 其 他 各 个 领域 。 尽 管 我 们 还 处 在 大 数据 时 代 的 初 
期 ,但 我 们 的 日 常生 活 已 经 离 不 开 它 了 。 


1.1.3 大 数据 的 定义 


所 谓 大 数据 ,狭义 上 可 以 定义 为 : 用 现 有 的 一 般 技 术 难 以 管理 的 大 量 数据 的 集合 。 
对 大 量 数据 进行 分 析 , 并 从 中 获得 有 用 观点 ,这 种 做 法 在 一 部 分 研究 机 构 和 大 企业 中 过 去 
就 已 经 存在 了 。 现 在 的 大 数据 和 过 去 相 比 ,主要 有 三 点 区 别 : 第 一 , 随 着 社交 媒体 和 传 感 
器 网 络 等 的 发 展 , 在 我 们 身边 正 产生 出 大 量 且 多 样 的 数据 ;第 二 , 随 着 硬件 和 软件 技术 的 
发 展 ,数据 的 存储 、 处 理 成 本 大 幅 下 降 ;第 三 , 随 着 云 计算 的 兴起 ,大 数据 的 存储 、 处 理 环境 
已 经 没有 必要 自行 搭建 。 

所 谓 * 用 现 有 的 一 般 技 术 难以 管理 ”一 般 是 指 用 目前 在 企业 数据 库 占据 主流 地 位 的 
关系 型 数据 库 无 法 进行 管理 的 .具有 复杂 结构 的 数据 。 或 者 也 可 以 说 ,是 指 由 于 数据 量 的 
增 大 ,导致 对 数据 的 查询 (Query) 响 应 时 间 超 出 允许 范围 的 庞大 数据 。 

研究 机 构 Gartner 给 出 了 这 样 的 定义 :“ 大 数据 ?是 需要 新 处 理 模式 才能 具有 更 强 的 
决策 力 .洞察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 

麦肯锡 ?说 :“ 大 数据 指 的 是 所 涉及 的 数据 集 规模 已 经 超过 了 传统 数据 库 软件 获取 、 





四 ”麦肯锡 公司 :是 世界 级 领先 的 全 球 管理 咨询 公司 。 自 1926 年 成 立 以 来 ,公司 的 使 命 就 是 帮助 领先 的 企业 机 
构 实 现 显著 持久 的 经 营业 绩 改 善 , 打 造 能 够 吸引 、 培 育 和 激励 杰出 人 才 的 优秀 组 织 机 构 。 

麦肯锡 在 全 球 52 个 国家 有 94 个 分 公司 。 在 过 去 十 年 中 ,麦肯锡 在 大 中 华 区 完成 了 800 多 个 项 目 , 涉 及 公司 整体 
与 业务 单元 战略 .企业 金融 、 营 销 /销售 与 渠道 .组 织 架构 、 制 造 /采购 /供应 链 、 技 术 .产品 研发 等 领域 。 

麦肯锡 的 经 验 是 :关键 是 找 那些 企业 的 领导 们 ,使 他 们 能 够 认识 到 公司 必须 不 断 变革 以 适应 环境 变化 ,并 且 愿 意 
接受 外 部 的 建议 ,这 些 建议 在 帮助 他 们 决定 做 何 种 变革 和 怎样 变革 方面 大 有 神 益 。 
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存储 、 管 理 和 分 析 的 能 力 。 这 是 一 个 被 故意 设计 成 主观 性 的 定义 ,并 且 是 一 个 关于 多 大 的 
数据 集 才能 被 认为 是 大 数据 的 可 变 定 义 , 即 并 不 定义 大 于 一 个 特定 数字 的 TB 才 叫 大 数 
据 。 因 为 随 着 技术 的 不 断 发 展 ,符合 大 数据 标准 的 数据 集 容量 也 会 增长 ;并 且 定 义 随 不 同 
的 行业 也 有 变化 ,这 依赖 于 在 一 个 特定 行业 通常 使 用 何 种 软件 和 数据 集 有 多 大 。 因 此 ,大 
数据 在 今天 不 同行 业 中 的 范围 可 以 从 几 十 TB 到 几 PB。” 

随 着 “大 数据 ”的 出 现 , 数 据 仓库 、 数 据 安全 数据 分 析 、 数 据 挖掘 等 围绕 大 数据 商业 价 
值 的 利用 正 逐 渐 成 为 行业 人 士 争 相 追捧 的 利润 焦点 ,在 全 球 引领 了 又 一 轮 数据 技术 革新 
的 浪潮 。 


1.1.4 用 3V 描述 大 数据 特征 


从 字面 来 看 ,“ 大 数据 "这 个 词 可 能 会 让 人 觉得 只 是 容量 非常 大 的 数据 集合 而 已 。 但 
容量 只 不 过 是 大 数据 特征 的 一 个 方面 ,如 果 只 拘泥 于 数据 量 ,就 无 法 深入 理解 当前 围绕 大 
数据 所 进行 的 讨论 。 因 为 “用 现 有 的 一 般 技术 难以 管理 ”这样 的 状况 ,并 不 仅仅 是 由 于 数 
据 量 增 大 这 一 个 因素 所 造成 的 。 

IBM 提出 :“ 可 以 用 三 个 特征 相 结合 来 定义 大 数据 : 数量 (Volume, 或 称 容量 ) 、 种 类 
(Variety, 或 称 多 样 性 ) 和 速度 (Velocity) ,或 者 说 就 是 简单 的 3V, 即 庞大 容量 、 极 快速 度 
和 种 类 丰富 的 数据 。 "如 图 1-2 所 示 。 





Variety 一 种 类 
Velocity 一 速度 
Volume 一 数量 





图 1-2 ” 按 数量 .种 类 和 速度 来 定义 大 数据 


1. volume 数量 ) 


用 现 有 技术 无 法 管理 的 数据 量 , 从 现状 来 看 ,基本 上 是 指 从 几 十 TB 到 几 PB 这 样 的 
数量 级 。 当 然 , 随 着 技术 的 进步 ,这 个 数值 也 会 不 断 变化 。 

如 今 ,存储 的 数据 数量 正在 急剧 增长 中 ,我 们 存储 所 有 事物 ,包括 环境 数据 、 财 务 数 
据 、 医 疗 数据 ,监控 数据 等 。 有 关 数 据 量 的 对 话 已 从 TB 级 别 转向 PB 级别, 并且 不 可 避免 
地 会 转向 ZB 级 别 。 可 是 , 随 着 可 供 企业 使 用 的 数据 量 不 断 增 长 ,可 处 理 、 理 解 和 分 析 的 
数据 的 比例 却 不 断 下 降 。 


每 由 入 基数 电 和 顽 类 孝 据 时 人 


2 Variey( 种 类 、 多 样 性 ) 


随 着 传感器 .智能 设备 以 及 社交 协作 技术 的 激增 ,企业 的 数据 也 变 得 更 加 复杂 ,因为 
它 不 仅 包 含 传统 的 关系 型 数据 ,还 包含 来 自 网 页 、 互 联网 日 志文 件 (包括 单 击 流 数 据 ) 、 搜 
索索 引 、 社 交 媒 体 论 坛 、 电 子 邮 件 、 文 档 、 主 动 和 被 动 系统 的 传感器 数据 等 原始 、 半 结构 化 
和 非 结构 化 的 数据 。 

种 类 表示 所 有 的 数据 类 型 。 其 中 ,爆发 式 增长 的 一 些 数据 ,如 互联 网 上 的 文本 数据 、 
位 管 信 息 ,传感器 数据 、 视 频 等 ,用 企业 中 主流 的 关系 型 数据 库 是 很 难 存 储 的 ,它们 都 属于 
非 结 构 化 数据 。 

当然 ,在 这 些 数据 中 ,有 一 些 是 过 去 一 直 存在 并 保存 下 来 的 。 和 过 去 不 同 的 是 ,除了 
存储 ,还 需要 对 这 些 大 数据 进行 分 析 , 并 从 中 获得 有 用 的 信息 。 例 如 监控 摄像 机 中 的 视频 
数据 。 近 年 来 ,超市 ,便利 店 等 零售 企业 几乎 都 配备 了 监控 摄像 机 ,最 初 目的 是 为 了 防范 
盗窃 ,但 现在 也 出 现 了 使 用 监控 摄像 机 的 视频 数据 来 分 析 顾 客 购买 行为 的 案例 。 

例如 ,美国 高 级 文具 制造 商 万 宝 龙 (Montblane) 过 去 是 凭 经 验 和 直觉 来 决定 商品 陈 
列 布局 的 ,现在 尝试 利用 监控 摄像 头 对 顾客 在 店内 的 行为 进行 分 析 。 通 过 分 析 监 控 摄 像 
机 的 数据 ,将 最 想 卖 出 去 的 商品 移动 到 最 容易 吸引 顾客 目光 的 位 置 ,使 得 销售 额 提 高 
了 20%。 


3. Velocity 速度 ) 


数据 产生 和 更 新 的 频率 ,也 是 衡量 大 数据 的 一 个 重要 特征 。 就 像 我 们 收集 和 存储 的 
数据 量 和 种 类 发 生 了 变化 一 样 , 生 成 和 需要 处 理 数据 的 速度 也 在 变化 。 不 要 将 速度 的 概 
念 限定 为 与 数据 存储 相关 的 增长 速率 ,应 动态 地 将 此 定义 应 用 到 数据 , 即 数据 流动 的 速 
度 。 有 效 处 理 大 数据 需要 在 数据 变化 的 过 程 中 对 它 的 数量 和 种 类 执行 分 析 , 而 不 只 是 在 
它 静止 后 执行 分 析 。 

例如 ,遍布 全 国 的 便利 店 在 24 小 时 内 产生 的 POS 机 数据 、 电 商 网 站 中 由 用 户 访问 所 
产生 的 网 站 点 击 流 数 据 、 高 峰 时 达到 每 秒 近 万 条 的 微 信 短文 .全 国 公路 上 安装 的 交通 堵塞 
探测 传感器 和 路 面 状况 传感器 (可 检测 结 冰 、 积 雪 等 路 面 状态 ) 等 ,每 天 都 在 产生 着 庞大 的 
数据 。 

IBM 在 3V 的 基础 上 又 归纳 总 结 了 第 4 个 V Veracity( 真 实 和 准确 )。“ 只 有 真实 
而 准确 的 数据 才能 让 对 数据 的 管控 和 治理 真正 有 意义 。 随 着 社交 数据 、 企 业内 容 、 交 易 与 
应 用 数据 等 新 数据 源 的 兴起 ,传统 数据 源 的 局 限 性 被 打破 ,企业 愈 发 需要 有 效 的 信息 治理 
以 确保 其 真实 性 及 安全 性 。” 

IDC( 互 联网 数据 中 心 ) 说 :“ 大 数据 是 一 个 貌似 不 知道 从 哪里 冒 出 来 的 大 的 动力 ,但 
是 实际 上 ,大 数据 并 不 是 新 生 事物 。 然 而 , 它 确实 正在 进入 主流 ,并 得 到 重大 关注 ,这 是 有 
原因 的 。 廉 价 的 存储 ,传感器 和 数据 采集 技术 的 快速 发 展 、 通 过 云 和 虚拟 化 存储 设施 增加 
的 信息 链 路 ,以 及 创新 软件 和 分 析 工 具 , 正 在 驱动 着 大 数据 。 大 数据 不 是 一 个 “事物 ,而 
是 一 个 跨 多 个 信息 技术 领域 的 动力 /活动 。 大 数据 技术 描述 了 新 一 代 的 技术 和 架构 ,其 被 
设计 用 于 通过 使 用 高 速 (Velocity) 的 采集 ,发现 和 /或 分 析 , 从 超大 容量 (Volume) 的 多 样 
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(Variety) 数 据 中 经 济 地 提取 价值 (Value) 。” 

这 个 定义 除了 揭示 大 数据 传统 的 3V 基本 特征 , 即 Volume( 大 数据 量 )、Variety( 多 样 
性 ) 和 Velocity( 高 速 ), 还 增添 了 一 个 新 特征 : Value( 价 值 ) 。 

大 数据 实现 的 主要 价值 可 以 基于 下 面 三 个 评价 准则 中 的 一 个 或 多 个 进行 评判 : 

(1) 它 提 供 了 更 有 用 的 信息 吗 ? 

(2) 它 改进 了 信息 的 精确 性 吗 ? 

(3) 它 改进 了 响应 的 及 时 性 吗 ? 

总 之 ,大 数据 是 个 动态 的 定义 ,不 同行 业 根据 其 应 用 的 不 同 有 着 不 同 的 理解 ,其 衡量 
标准 也 在 随 着 技术 的 进步 而 改变 。 

狭义 上 ,大 数据 的 定义 着 眼 点 于 数据 的 性 质 上 ,我 们 在 广义 层面 上 再 为 大 数据 下 一 个 
定义 (图 1-3):“ 所 谓 大 数据 ,是 一 个 综合 性 的 概念 , 它 包括 因 具 备 3VCVolume、Variety、 
Velocity) 特 征 而 难以 进行 管理 的 数据 ,对 这 些 数据 进行 存储 、 处 理 、 分 析 的 技术 ,以 及 能 
够 通过 分 析 这 些 数据 获得 实用 意义 和 观点 的 人 才 和 组 织 。” 





人 才 、 组 织 
(数据 科学 家 等 ) 


数据 处 理 、 

存储 、 分 析 技术 
(Hadoop ~ NoSQL 、 
机 器 学 习 、 统 计 分 析 等 ) 








广义 的 
大 数据 





非 结构 化 数据 
(文本 、 视 频 、 声 音 、 






传感器 、GPS 等 ) 狭义 的 大 
结构 化 数据 Ee 





(客户 数据 、 
销售 数据 等 ) 












图 1-3 广义 的 大 数据 


“存储 、 处 理 、 分 析 的 技术 ” 指 的 是 用 于 大 规模 数据 分 布 式 处 理 的 框架 Hadoop、 具 备 
良好 扩展 性 的 NoSQL 数据 库 , 以 及 机 器 学 习 和 统计 分 析 等 ;能 够 通过 分 析 这 些 数 据 获 
得 实用 意义 和 观点 的 人 才 和 组 织 ” 指 的 是 目前 十 分 紧俏 的 “数据 科学 家 ”这 类 人 才 , 以 及 能 
够 对 大 数据 进行 有 效 运 用 的 组 织 。 

1.1.5 大 数据 的 结构 类 型 

大 数据 具有 多 种 形式 ,从 高 度 结构 化 的 财务 数据 ,到 文本 文件 .多 媒体 文件 和 基因 定 
位 图 等 任何 数据 ,都 可 以 称 为 大 数据 。 由 于 数据 自身 的 复杂 性 ,作为 一 个 必然 的 结果 ,处 
理 大 数据 的 首选 方法 就 是 在 并 行 计算 的 环境 中 进行 大 规模 并 行 处 理 (Massively Parallel 
Processing, MPP) ,这 使 得 同时 发 生 的 并 行 摄取 、 并 行 数据 装载 和 分 析 成 为 可 能 。 实 际 
上 ,大 多 数 的 大 数据 都 是 非 结 构 化 或 半 结 构 化 的 .这 需要 不 同 的 技术 和 工具 来 处 理 和 


蕴 由 和 因 蝎 量 司 只 此 扎 量 的 


分 析 。 

大 数据 最 突出 的 特征 是 它 的 结构 。 图 1-4 显示 了 几 种 不 同 数据 结构 类 型 数据 的 增长 
趋势 ,由 图 可 知 , 未 来 数据 增长 的 80% 一 90% 将 来 自 于 不 是 结构 化 的 数据 类 型 ( 半 结 构 
化 、 准 结构 化 和 非 结 构 化 ) 。 














.包括 预定 义 的 数据 类型 、 格 式 和 结构 的 数据 
结构 化 \\_ “举例 : 事务 性 数据 和 联机 分 析 处 理 
* 具有 可 识别 的 模式 并 可 以 解析 的 文本 数据 文件 
责 半 结构 化 " 举例 : 自 描述 和 具有 定义 模式 的 XML 数据 文件 
构 “具有 不 规则 数据 格式 的 文本 数据 ， 通 过 使 用 工具 
化 可 以 使 之 格式 化 
“ 准 "结构 化 “举例 : 包含 不 一 致 的 数据 值 和 格式 的 网 站 点 击 数据 
“ 没有 固定 结构 的 数据 ， 通 常 保存 为 不 同类 型 
要 的 文件 
非 结构 化 举例: 文本 文档 、PDF 文 档 、 图 像 和 视频 








图 1-4 数据 增长 日 益 趋向 非 结 构 化 


虽然 图 1-4 显示 了 4 种 不 同 的 、 相 分 离 的 数据 类 型 ,实际 上 ,有 时 这 些 数据 类 型 是 可 
以 被 混合 在 一 起 的 。 例 如 ,有 一 个 传统 的 关系 数据 库 管 理 系统 保存 着 一 个 软件 支持 呼叫 
中 心 的 通话 日 志 , 这 里 有 典型 的 结构 化 数据 ,如 日 期 /时 间 戳 .机 器 类 型 .问题 类 型 .操作 系 
统 ,这 些 都 是 在 线 支 持 人 员 通 过 图 形 用 户 界面 上 的 下 拉 式 菜单 输入 的 。 另 外 ,还 有 非 结 构 
化 数据 或 半 结 构 化 数据 ,如 自由 形式 的 通话 日 志 信 息 , 这 些 可 能 来 自 包含 问题 的 电子 邮 
件 , 或 者 技术 问题 和 解决 方案 的 实际 通话 描述 。 另 外 一 种 可 能 是 与 结构 化 数据 有 关 的 实 
际 通话 的 语音 日 志 或 者 音频 文字 实录 。 即 使 是 现在 ,大 多 数 分 析 人 员 还 无 法 分 析 这 种 通 
话 日 志 历 史 数据 库 中 的 最 普通 和 高 度 结 构 化 的 数据 ,因为 挖掘 文本 信息 是 一 项 强度 很 大 
的 工作 ,并且 无 法 简单 地 实现 自动 化 。 

人 们 通常 最 熟悉 结构 化 数据 的 分 析 , 然 而 , 半 结 构 化 数据 (XML)、“ 淮 "结构 化 数据 
(网 站 地 址 字符 串 ) 和 非 结 构 化 数据 代表 了 不 同 的 挑战 .需要 不 同 的 技术 来 分 析 。 
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如 今 , 人 们 不 再 认为 数据 是 静止 和 陈旧 的 。 但 在 以 前 ,一 旦 完成 了 收集 数据 的 目的 之 
后 ,数据 就 会 被 认为 已 经 没有 用 处 了 。 比 方 说 ,在 飞机 降落 之 后 , 票 价 数据 就 没有 用 了 (对 
谷歌 而 言 , 则 是 一 个 检索 命令 完成 之 后 )。 壁 如 某 城市 的 公交 车 因为 价格 不 依赖 于 起 点 和 
终点 ,所 以 能 够 反映 重要 通勤 信息 的 数据 被 工作 人 员 “ 自 作 主 张 " 地 丢弃 了 一 一 设计 人 员 
如 果 没 有 大 数据 的 理念 ,就 会 丢失 掉 很 多 有 价值 的 数据 。 

今天 ,大 数据 是 人 们 获得 新 的 认 知 、 创 造 新 的 价值 的 源泉 ,大 数据 还 是 改变 市 场 、 组 织 
机 构 , 以 及 政府 与 公民 关系 的 方法 。 大 数据 时 代 对 我 们 的 生活 ,以 及 与 世界 交流 的 方式 都 
提出 了 挑战 。 实 际 上 ,大 数据 的 精 能 在 于 我 们 分 析 信 息 时 的 三 个 转变 ,这 些 转 变 将 改变 我 
们 理解 和 组 建 社会 的 方法 ,这 三 个 转变 是 相互 联系 和 相互 作用 的 。 
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大 数据 时 代 的 第 一 个 转变 .是 要 分 析 与 某 事 物 相关 的 更 多 的 数据 .有 了 时候 甚至 可 以 处 
理 和 某 个 特别 现象 相关 的 所 有 数据 .而 不 再 是 只 依赖 于 分 析 随 机 采样 的 少量 的 数据 样本 。 

19 世纪 以 来 ,当面 临 大 量 数据 时 ,社会 都 依赖 于 采样 分 析 。 但 是 采样 分 析 是 信息 缺 
乏 时 代 和 信息 流通 受 限制 的 模拟 数据 时 代 的 产物 。 以 前 我 们 通常 把 这 看 成 是 理所当然 的 
限制 ,但 高 性 能 数字 技术 的 流行 让 我 们 意识 到 ,这 其 实 是 一 种 人 为 的 限制 。 与 局 限 在 小 数 
据 范围 相 比 ,使 用 一 切 数据 为 我 们 带 来 了 更 高 的 精确 性 ,也 让 我 们 看 到 了 一 些 以 前 样本 无 
法 揭示 的 细节 信息 。 

在 某 些 方面 ,人 们 依然 没有 完全 意识 到 自己 拥有 了 能 够 收集 和 处 理 更 大 规模 数据 的 
能 力 , 还 是 在 信息 匮乏 的 假设 下 做 很 多 事情 ,假定 自己 只 能 收集 到 少量 信息 ,为 此 人 们 甚 
至 发 展 了 一 些 使 用 尽 可 能 少 的 信息 的 技术 。 例 如 ,统计 学 的 一 个 目的 就 是 用 尽 可 能 少 的 
数据 来 证 实 尽 可 能 重大 的 发 现 。 事 实 上 ,我 们 形成 了 一 种 习惯 , 那 就 是 在 制度 .处理 过 程 
和 激励 机 制 中 尽 可 能 地 减少 数据 的 使 用 。 


1.2.1 小 数据 时 代 的 随机 采样 
数 千年 来 ,政府 一 直 都 试图 通过 收集 信息 来 管理 国民 ,只 是 到 最 近 , 小 企业 和 个 人 才 
有 可 能 拥有 大 规模 收集 和 分 类 数据 的 能 力 ,而 此 前 ,大 规模 的 计数 都 是 政府 的 事情 。 


以 人 口 普查 为 例 。 据 说 古代 埃及 曾 进行 过 人 口 普查 ,《 旧 约 》 和 和 《新 约 ) 中 对 此 都 有 所 提 
及 。 那 次 由 奥 古 斯 都 已 撤 D( 图 1-5) 主 导 实 施 的 人 口 普查 ,提出 了 * 每 个 人 都 必须 纳税 ”。 





图 1-5 奥 古 斯 都 恺 撤 


1086 年 的 (末日 审判 书 》 对 当时 英国 的 人 口 .土地 和 财产 做 了 一 个 前 所 未 有 的 全 面 记 
载 。 皇 家 委员 穿越 整个 国家 对 每 个 人 、 每 件 事 都 做 了 记载 ,后 来 这 本 书 用 《圣经 》 中 的 《 末 
日 审判 书 》 命 名 ,因为 每 个 人 的 生活 都 被 赤裸 裸 地 记载 下 来 的 过 程 就 像 接 受 * 最 后 的 审判 


@ 盖 乌 斯 屋 大 维 ,全 名 盖 乌 斯 。 尤 里 乌 斯 . 恺 撤 。 奥 古 斯 都 (前 63 年 9 月 23 日 一 14 年 8 月 19 日), 罗 马 帝 
国 的 开国 君主 ,元 首 政 制 的 创始 人 ,统治 罗马 长 达 43 年 ,是 世界 历史 上 最 重要 的 人 物 之 一 。 他 是 恺 撤 的 禾 孙 ,公元 前 
44 年 被 恺 撤 收 为 养子 并 指定 为 继承 人 , 恺 撤 被 刺 后 登 上 政治 舞台 。 公 元 前 1 世纪 ,他 平息 了 企图 分 裂 罗 马 共 和 国 的 
内 战 ,被 元 老 院 赐 封 为 “ 奥 古 斯 都 ”, 并 改组 罗马 政府 ,给 罗马 世界 带 来 了 两 个 世纪 的 和 平 与 繁荣 。14 年 8 月 ,在 他 去 
世 后 ,罗马 元 老 院 决定 将 他 列 人 “ 神 ” 的 行列 。 
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一 样 。 然 而 ,人 口 普查 是 一 项 耗资 且 费 时 的 事情 .尽管 如 此 ,当时 收集 的 信息 也 只 是 一 个 
大 概 情况 ,实施 人 口 普查 的 人 也 知道 他 们 不 可 能 准确 记录 下 每 个 人 的 信息 。 实际 上 ,“ 人 
口 普 查 ” 这 个 词 来 源 于 拉丁 语 的 censere, 本 意 就 是 推测 、 估 算 。 

三 百 多 年 前 ,一 个 名 叫 约翰 。 格 朗 特 的 英国 缝 幼 用品 商 提 出 了 一 个 很 有 新 意 的 方法 ， 
来 推算 出 鼠疫 时 期 ?伦敦 的 人 口 数 , 这 种 方法 就 是 后 来 的 统计 学 ,这 个 方法 不 需要 一 个 人 
一 个 人 地 计算 。 虽 然 这 个 方法 比较 粗糙 ,但 采用 这 个 方法 .人们 可 以 利用 少量 有 用 的 样本 
信息 来 获取 人 口 的 整体 情况 。 虽 然后 来 证 实 他 能 够 得 出 正确 的 数据 仅仅 是 因为 运气 好 ， 
但 在 当时 他 的 方法 大 受 欢 迎 。 样 本 分 析 法 一 直 都 有 较 大 的 漏洞 ,因此 ,无 论 是 进行 人 口 普 
查 还 是 其 他 大 数据 类 的 任务 ,人 们 还 是 一 直 使 用 清点 这 种 “野蛮 ”的 方法 。 

考虑 到 人 口 普 查 的 复杂 性 以 及 耗 时 耗费 的 特点 ,政府 极 少 进行 普查 。 古 罗马 在 拥有 
数 十 万 人 口 的 时 候 每 五 年 普查 一 次 。 美 国 宪 法 规定 每 十 年 进行 一 次 人 口 普查 ,而 随 着 国 
家 人 口 越 来 越 多 ,只 能 以 百 万 计数 。 但 是 到 19 世纪 为 止 ,即使 这 样 不 频繁 的 人 口 普查 依 
然 很 困难 ,因为 数据 变化 的 速度 超过 了 人 口 普查 局 统计 分 析 的 能 力 。 

新 中 国 建立 后 ,先后 于 1953、1964 和 1982 年 举行 过 三 次 人 口 普查 ,这 三 次 人 口 普查 
是 不 定期 进行 的 , 自 1990 年 第 4 次 全 国人 口 普查 开始 改 为 定期 进行 。 根 据 《 中 华人 民 共 
和 国 统计 法 实施 细则 》 和 国务 院 的 决定 以 及 国务 院 2010 年 颁布 的 《全国 人口 普 查 条 例 ) 规 
定 , 人 口 普查 每 十 年 进行 一 次 ,尾数 逢 0 的 年 份 为 普查 年 度 。 两 次 普查 之 间 , 进 行 一 次 简 
易 人 口 普查 。2020 年 为 第 七 次 全 国人 口 普查 的 时 间 。 

新 中 国 第 一 次 人 口 普查 的 标准 时 间 是 1953 年 6 月 30 日 24 时 ,所 谓 人 口 普 查 的 标准 
时 间 ,就 是 规定 一 个 时 间 点 ,无论 普查 员 入 户 登记 在 哪 一 天 进行 ,登记 的 人 口 及 其 各 种 特 
征 都 是 反映 那个 时 间 点 上 的 情况 。 根 据 上 述 规定 ,不管 普 查 员 在 哪 天 进行 人 户 登 记 , 普 查 
对 象 所 申报 的 都 应 该 是 标准 时 间 的 情况 。 通 过 这 个 标准 时 间 , 所 有 普查 员 普 查 登记 完成 
后 ,经 过 汇总 就 可 以 得 到 全 国人 口 的 总 数 和 各 种 人 口 状 况 的 数据 。1953 年 11 月 1 日 发 
布 了 人 口 普查 的 主要 数据 ,当时 全 国人 口 总 数 为 601 938 035 人 。 

第 六 次 人 口 普查 的 标准 时 间 是 2010 年 11 月 1 日 零 时 。2011 年 4 月 ,发 布 了 第 六 次 
全 国人 口 普查 主要 数据 。 此 次 人 口 普查 登记 的 全 国 总 人 口 为 1 339 724 852 人 。 与 2000 年 
第 五 次 人 口 普 查 相 比 ,十 年 增加 7390 万 人 ,增长 5. 84%, 年 平均 增长 0. 57%, 比 1990 年 
到 2000 年 年 均 1.07% 的 增长 率 下 降 了 0.5 个 百分点 。 

美国 在 1880 年 进行 的 人 口 普 查 , 耗 时 8 年 才 完成 数据 汇总 。 因 此 ,他 们 获得 的 很 多 
数据 都 是 过 时 的 。1890 年 进行 的 人 口 普查 ,预计 要 花费 13 年 的 时 间 来 汇总 数据 。 然 而 ， 
因为 税收 分 扒 和 国会 代表 人 数 确定 都 是 建立 在 人 口 的 基础 上 的 ,必须 获得 正确 且 及 时 的 
数据 。 很 明显 ,人们 已 有 的 数据 处 理工 具 已 经 难以 应 付 了 了 。 后 来 .美国 人 口 普查 局 就 委托 
发 明 家 赫 尔 曼 。 霍 尔 瑞 斯 (被 称 为 现代 自动 计算 之 父 ) 用 他 的 穿孔 卡片 制 表 机 (图 1-6) 来 


@ 鼠疫 时 期 :鼠疫 也 称 黑 死 病 , 它 第 一 次 裴 击 英国 是 在 1348 年 ,此 后 断断续续 延续 了 300 多 年 ,当时 英国 有 近 
1/3 的 人 口 死 于 鼠疫 。 到 1665 年 ,这 场 鼠疫 肆虐 了 整个 欧洲 , 几 近 疯狂 。 仅 伦敦 地 区 ,就 死亡 六 七 万 人 以 上 。 仅仅 
1665 年 的 6 月 至 8 月 这 三 个 月 内 ,伦敦 的 人 口 就 减少 了 十 分 之 一 。 到 1665 年 8 月 ,每 周 死亡 达 2000 人 ,9 月 竟 达 
8000 人 。 鼠 疫 由 伦敦 向 外 草 延 ,英国 王室 逃 出 伦敦 ,市 内 的 富 人 也 携 家 带 口 匆 匆 出 逃 , 居 民 纷 纷 疏 散 到 了 乡间 。 


太 数 握 可 掀 人 (化 


完成 1890 年 的 人 口 普查 。 
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图 1-6 和 堆 尔 瑞 斯 普查 机 


经 过 大 量 的 努力 , 霍 尔 瑞 斯 成 功 地 在 一 年 时 间 内 完成 了 人 口 普查 的 数据 汇总 工作 。 
这 在 当时 简直 就 是 一 个 奇迹 , 它 标志 着 自动 处 理 数 据 的 开端 ,也 为 后 来 IBM 公司 的 成 立 
竟 定 了 基础 。 但 是 ,将 其 作为 收集 处 理 大 数据 的 方法 依然 过 于 昂贵 。 毕 竞 , 每 个 美国 人 都 
必须 填 一 张 可 制 成 穿孔 卡片 的 表格 ,然后 再 进行 统计 。 对 于 一 个 跨越 式 发 展 的 国家 而 言 ， 
十 年 一 次 的 人 口 普查 的 滞后 性 已 经 让 普查 失去 了 大 部 分 意义 。 

这 就 是 问题 所 在 ,是 利用 所 有 的 数据 还 是 仅仅 采用 一 部 分 呢 ? 最 明智 的 自然 是 得 到 
有 关 被 分 析 事 物 的 所 有 数据 ,但 是 当 数 量 无 比 庞大 时 ,这 又 不 太 现实 。 那 如 何 选择 样本 
呢 ? 事实 证 明 , 问 题 的 关键 是 选择 样本 时 的 随机 性 。 

统计 学 家 们 证 明 : 采样 分 析 的 精确 性 随 着 采样 随机 性 的 增加 而 大 幅 提高 ,但 与 样本 
数量 的 增加 关系 不 大 。 虽 然 听 起 来 很 不 可 思议 ,但 事实 上 ,研究 表明 , 当 样 本 数量 达到 了 
某 个 值 之 后 ,我们 从 新 个 体 身 上 得 到 的 信息 会 越 来 越 少 .就 如 同 经 济 学 中 的 边际 效应 递减 
一 样 。 
认为 样本 选择 的 随机 性 比 样本 数量 更 重要 ,这 种 观点 是 非常 有 见地 的 。 这 种 观点 为 
我 们 开辟 了 一 条 收集 信息 的 新 道路 。 通 过 收集 随机 样本 ,可 以 用 较 少 的 花费 做 出 高 精准 
度 的 推断 。 因 此 ,政府 每 年 都 可 以 用 随机 采样 的 方法 进行 小 规模 的 人 口 普查 。 当 收集 和 
分 析 数 据 都 不 容易 时 ,随机 采样 就 成 为 应 对 信息 采集 困难 的 办 法 。 

在 商业 领域 ,随机 采样 被 用 来 监管 商品 质量 。 这 使 得 监管 商品 质量 和 提升 商品 品质 
变 得 更 容易 ,花费 也 更 少 。 以 前 ,全 面 的 质量 监管 要 求 对 生产 出 来 的 每 个 产品 进行 检查 ， 
而 现在 只 需 从 一 批 商品 中 随机 抽取 部 分 样品 进行 检查 就 可 以 了 。 从 本 质 上 来 说 ,随机 采 
样 让 大 数据 问题 变 得 更 加 切实 可 行 。 同 理 , 它 将 客户 调查 引进 了 零售 行业 ,将 焦点 讨论 引 
进 了 政治 界 , 也 将 许多 人 文 问 题 变 成 了 社会 科学 问题 。 

随机 采样 取得 了 巨大 的 成 功 , 成 为 现代 社会 .现代 测量 领域 的 主心骨 。 但 这 只 是 一 条 
捷径 ,是 在 不 可 收集 和 分 析 全 部 数据 的 情况 下 的 选择 , 它 本 身 存在 许多 固有 的 缺陷 。 它 的 
成 功 依赖 于 采样 的 绝对 随机 性 ,但 是 实现 采样 的 随机 性 非常 困难 。 一 旦 采样 过 程 中 存在 
任何 偏见 ,分 析 结 果 就 会 相去 其 还 。 此 外 ,随机 采样 不 适合 考察 子 类 别 的 情况 。 因 为 一 旦 
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继续 细 分 ,随机 采样 结果 的 错误 率 会 大 大 增加 。 因 此 ,在 宏观 领域 起 作用 的 方法 在 微观 领 
域 失去 了 作用 。 


1.2.2 大 数据 与 乔布斯 的 癌症 治疗 


由 于 技术 成 本 大 幅 下 跌 以 及 在 医学 方面 的 广阔 前 景 ,个 人 基因 排序 (DNA 分 析 ) 成 为 
了 一 门 新 兴 产 业 ( 图 1-7)。 从 2007 年 起 ,硅谷 的 新 兴 科 技 公司 23andMe 就 开始 分 析 人 类 
基因 ,价格 仅 为 几 百 美元 。 这 可 以 揭示 出 人 类 遗传 密码 中 一 些 会 导致 其 对 某 些 疾病 抵抗 
力 差 的 特征 ,如 乳腺 癌 和 心脏 病 。23andme 希望 能 通过 整合 顾客 的 DNA 和 健康 信息 ,了 
解 到 用 其 他 方式 不 能 获取 的 新 信息 。 公 司 对 某 人 的 一 小 部 分 DNA 进行 排序 ,标注 出 几 
十 个 特定 的 基因 缺陷。 这 只 是 该 人 整个 基因 密码 的 样本 ,还 有 几 十 亿 个 基因 碱 基 对 未 排 
序 。 最 后 ,23andme 只 能 回答 其 标注 过 的 基因 组 表现 出 来 的 问题 。 发 现 新 标注 时 ,该 人 的 
DNA 必须 重新 排列 ,更 准确 地 说 ,是 相关 的 部 分 必须 重新 排列 。 只 研究 样本 而 不 是 整体 ， 
有 利 有 弊 : 能 更 快 更 容易 地 发 现 问题 ,但 不 能 回答 事先 未 考虑 到 的 问题 。 
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图 1-7 世界 各 民族 基因 总 图 (美国 ) 


苹果 公司 的 传奇 总 裁 史 蒂 夫 “。 乔布斯 在 与 癌症 斗争 的 过 程 中 采用 了 不 同 的 方式 ,成 
为 世界 上 第 一 个 对 自身 所 有 DNA 和 肿瘤 DNA 进行 排序 的 人 。 为 此 ,他 支付 了 高 达 几 十 
万 美元 的 费用 ,这 是 23andMe 报价 的 几 百 信之 多 。 所 以 ,他 得 到 了 包括 整个 基因 密码 的 
数据 文档 。 

对 于 一 个 普通 的 癌症 患者 ,医生 只 能 期 望 他 的 DNA 排列 同 试验 中 使 用 的 样本 足够 


大 数 电 可 钢化 


相似 。 但 是 , 史 蒂 夫 。 乔布斯 的 医生 们 能 够 基于 乔布斯 的 特定 基因 组 成 , 按 所 需 效果 用 
药 。 如 果 癌 症 病变 导致 药物 失效 ,医生 可 以 及 时 更 换 男 一 种 药 。 乔 布 斯 曾经 开玩笑 地 说 : 
“我 要 么 是 第 一 个 通过 这 种 方式 战胜 癌症 的 人 ,要 么 就 是 最 后 一 个 因为 这 种 方式 死 于 癌症 
的 人 。” 虽 然 他 的 愿望 都 没有 实现 ,但 是 这 种 获得 所 有 数据 而 不 仅 是 样本 的 方法 还 是 将 他 
的 生命 延长 了 好 几 年 。 


1.2.3 全 数据 模式 : 样本 三 总 体 


采样 的 目的 是 用 最 少 的 数据 得 到 最 多 的 信息 , 当 我 们 可 以 获得 海量 数据 的 时 候 , 它 就 
没有 什么 意义 了 。 如 今 ,感应 器 、 手 机 导航 、 网 站 点 击 和 微 信 等 被 动 地 收集 了 大 量 数据 ,而 
计算 机 可 以 轻易 地 对 这 些 数据 进行 处 理 一 一 数据 处 理 技术 已 经 发 生 了 翻天 覆 地 的 改变 。 

在 很 多 领域 ,从 收集 部 分 数据 到 收集 尽 可 能 多 的 数据 的 转变 已 经 发 生 了 。 如 果 可 能 
的 话 ,我 们 会 收集 所 有 的 数据 , 即 * 样 本 二 总体”, 这 是 指 我 们 能 对 数据 进行 深度 探讨 。 

分 析 整 个 数据 库 ,而 不 是 对 一 个 小 样本 进行 分 析 , 能 够 提高 微观 层面 分 析 的 准确 性 。 
所 以 ,我 们 现在 经 常会 放弃 样本 分 析 这 条 捷径 ,选择 收集 全 面 而 完整 的 数据 。 我 们 需要 足 
够 的 数据 处 理 和 存储 能 力 , 也 需要 最 先进 的 分 析 技 术 。 同 时 ,简单 廉价 的 数据 收集 方法 也 
很 重要 。 过 去 ,这 些 问题 中 的 任何 一 个 都 很 棘手 。 在 一 个 资源 有 限 的 时 代 , 要 解决 这 些 问 
题 需 要 付出 很 高 的 代价 。 但 是 现在 ,解决 这 些 难题 已 经 变 得 简单 容易 得 多 。 曾 经 只 有 大 
公司 才能 做 到 的 事情 ,现在 绝 大 部 分 的 公司 都 可 以 做 到 了 。 

通过 使 用 所 有 的 数据 ,我 们 可 以 发 现 如 若 不 然则 将 会 在 大 量 数据 中 淹没 掉 的 情况 。 
例如 ,信用卡 诈骗 是 通过 观察 异常 情况 来 识别 的 ,只 有 掌握 了 所 有 的 数据 才能 做 到 这 一 
点 。 在 这 种 情况 下 ,异常 值 是 最 有 用 的 信息 ,你 可 以 把 它 与 正常 交易 情况 进行 对 比 。 这 是 
一 个 大 数据 问题 。 而 且 , 因 为 交易 是 即时 的 ,所 以 你 的 数据 分 析 也 应 该 是 即时 的 。 

因为 大 数据 是 建立 在 掌握 所 有 数据 ,至 少 是 尽 可 能 多 的 数据 的 基础 上 的 ,所 以 我 们 就 
可 以 正确 地 考察 细节 并 进行 新 的 分 析 。 在 任何 细微 的 层面 ,我 们 都 可 以 用 大 数据 去 论证 
新 的 假设 。 当 然 , 有 些 时 候 , 我 们 还 是 可 以 使 用 样本 分 析 法 ,上 毕 竞 我 们 仍然 活 在 一 个 资源 
有 限 的 时 代 。 但 是 更 多 时 候 , 利 用 手中 掌握 的 所 有 数据 成 为 了 最 好 也 是 可 行 的 选择 。 


13 思维 变革 之 二 : 接受 数据 的 混杂 性 


大 数据 时 代 的 第 二 个 转变 ,是 我 们 乐于 接受 数据 的 纷繁 复杂 ,而 不 再 一 味 追 求 其 精 
确 性 。 

在 越 来 越 多 的 情况 下 ,使 用 所 有 可 获取 的 数据 变 得 更 为 可 能 ,但 为 此 也 要 付出 一 定 的 
代价 。 数 据 量 的 大 幅 增加 会 造成 结果 的 不 准确 ,与 此 同时 ,一 些 错误 的 数据 也 会 混 进 数据 
库 。 然 而 ,重点 是 我 们 能 够 努力 避免 这 些 问 题 ,适当 忽略 微观 层面 上 的 精确 度 会 让 我 们 在 
宏观 层面 拥有 更 好 的 洞察 力 。 

当 我 们 拥有 海量 即时 数据 时 ,绝对 的 精准 不 再 是 我 们 追求 的 主要 目标 。 大 数据 纷繁 
多 样 , 优 劣 掺 杂 , 分 布 在 全 球 多 个 服务 器 上 。 拥 有 了 大 数据 ,我 们 不 再 需要 对 一 个 现象 蚀 
根 究 底 , 只 要 掌握 大 体 的 发 展 方向 即 可 。 当 然 ,我 们 也 不 是 完全 放弃 了 精确 度 ,只 是 不 再 
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沉迷 于 此 。 
1.3.1 允许 不 精确 


对 “小 数据 ”而 言 , 最 基本 、 最 重要 的 要 求 就 是 减少 错误 ,保证 质量 。 因 为 收集 的 信息 
量 比较 少 , 所 以 我 们 必须 确保 记录 下 来 的 数据 尽量 精确 。 无 论 是 确定 天 体 的 位 置 还 是 观 
测 显微镜 下 物体 的 大 小 ,为 了 使 结果 更 加 准确 ,很 多 科学 家 都 致力 于 优化 测量 的 工具 ,发 
展 了 可 以 准确 收集 .记录 和 管理 数据 的 方法 。 在 采样 的 时 候 , 对 精确 度 的 要 求 就 更 高 更 苛 
刻 了 。 因 为 收集 信息 的 有 限 意 味 着 细微 的 错误 会 被 放大 ,甚至 有 可 能 影响 整个 结果 的 准 
确 性 。 

然而 ,在 不 断 涌现 的 新 情况 里 ,允许 不 精确 的 出 现 已 经 成 为 一 个 亮点 。 因 为 放松 了 容 
错 的 标准 ,人 们 掌握 的 数据 也 多 了 起 来 ,还 可 以 利用 这 些 数据 做 更 多 新 的 事情 。 这 样 就 不 
是 大 量 数据 优 于 少量 数据 那么 简单 了 ,而 是 大 量 数据 创造 了 更 好 的 结果 。 

同时 ,我 们 需要 与 各 种 各 样 的 混乱 做 斗争 。 混 乱 ,简单 地 说 就 是 随 着 数据 的 增加 , 错 
误 率 也 会 相应 增加 。 所 以 ,如 果 桥 梁 的 压力 数据 量 增加 1000 倍 的 话 , 其 中 的 部 分 读数 就 
可 能 是 错误 的 ,而 且 随 着 读数 量 的 增加 ,错误 率 可 能 也 会 继续 增加 。 在 整合 来 源 不 同 的 各 
类 信息 的 时 候 , 因 为 它们 通常 不 完全 一 致 ,所 以 也 会 加 大 混乱 程度 。 

混乱 还 可 以 指 格式 的 不 一 致 性 ,因为 要 达到 格式 一 致 ,就 需要 在 进行 数据 处 理 之 前 仔 
细 地 清洗 数据 ,而 这 在 大 数据 背景 下 很 难 做 到 。 

当然 ,在 葵 取 或 处 理 数据 的 时 候 , 混 乱 也 会 发 生 。 因 为 在 进行 数据 转化 的 时 候 , 我 们 
是 在 把 它 变 成 另外 的 事物 。 例 如 ,葡萄 是 温带 植物 ,温度 是 葡萄 生长 发 育 的 重要 因素 , 假 
设 你 要 测量 一 个 葡萄 园 的 温度 ,但 是 整个 葡萄 园 只 有 一 个 温度 测量 仪 , 那 你 就 必须 确保 这 
个 测量 仪 是 精确 的 而 且 能 够 一 直 工 作 。 反 过 来 ,如 果 每 100 棵 葡萄 树 就 有 一 个 测量 仪 ,有 
些 测试 的 数据 可 能 会 是 错误 的 ,可 能 会 更 加 混乱 ,但 众多 的 读数 合 起 来 就 可 以 提供 一 个 更 
加 准确 的 结果 。 因 为 这 里 面包 含 了 更 多 的 数据 ,而 它 不 仅 能 抵消 掉 错误 数据 造成 的 影响 ， 
还 能 提供 更 多 的 额外 价值 。 

再 来 想 想 增加 读数 频率 的 这 个 事情 。 如 果 每 隔 一 分 钟 就 测量 一 下 温度 ,至 少 还 能 够 
保证 测量 结果 是 按照 时 间 有 序 排列 的 。 如 果 变 成 每 分 钟 测量 十 次 其 至 百 次 的 话 ,不 仅 读 
数 可 能 出 错 , 连 时 间 先 后 都 可 能 搞 混 掉 。 试 想 ,如 果 信 息 在 网 络 中 流动 ,那么 一 条 记录 很 
可 能 在 传输 过 程 中 被 延迟 ,在 其 到 达 的 时 候 已 经 没有 意义 了 ,甚至 干脆 在 奔涌 的 信息 洪流 
中 彻底 迷失 。 虽 然 我 们 得 到 的 信息 不 再 那么 准确 ,但 收集 到 的 数量 庞大 的 信息 让 我 们 放 
弃 严 格 精确 的 选择 变 得 更 为 划算 。 

可 见 ,为 了 获得 更 广泛 的 数据 而 牺牲 了 精确 性 ,也 因此 看 到 了 很 多 如 若 不 然 无 法 被 关 
注 到 的 细节 。 或 者 ,为 了 高 频率 而 放弃 了 精确 性 ,结果 观察 到 了 一 些 本 可 能 被 错过 的 变 
化 。 昌 然 如 果 我 们 能 够 下 足够 多 的 工夫 ,这 些 错 误 是 可 以 避免 的 ,但 在 很 多 情况 下 ,与 致 
力 于 避免 错误 相 比 ,对 错误 的 包容 会 带 给 我 们 更 多 好 处 。 

大 数据 在 多 大 程度 上 优 于 算法 ,这 个 问题 在 自然 语言 处 理 上 表现 得 很 明显 。2000 年 ， 
微软 研究 中 心 的 米 歇 尔 。 班 科 和 埃 里 克 “* 布 里 尔 一 直 在 寻求 改进 Word 程序 中 语法 检查 
的 方法 ,但 是 他 们 不 能 确定 是 努力 改进 现 有 的 算法 、 研 发 新 的 方法 ,还 是 添加 更 加 细腻 精 


梧 
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致 的 特点 更 有 效 。 所 以 ,在 实施 这 些 措施 之 前 ,他 们 决定 往 现 有 的 算法 中 添加 更 多 的 数 
据 ,看 看 会 有 什么 不 同 的 变化 。 很 多 对 计算 机 学 习 算 法 的 研究 都 建立 在 百 万 字 左 右 的 语 
料 库 基础 上 。 最 后 ,他 们 决定 往 4 种 常见 的 算法 中 逐 新 添加 数据 ,先是 一 千 万 字 , 再 到 一 
亿 字 ,最 后 到 十 亿 。 

结果 有 点 令 人 吃惊 。 他 们 发 现 , 随 着 数据 的 增多 ,4 种 算法 的 表现 都 大 幅 提 高 了 。 当 
数据 只 有 500 万 的 时 候 , 有 一 种 简单 的 算法 表现 得 很 差 ,但 当 数 据 达 10 亿 的 时 候 , 它 变 成 
了 表现 最 好 的 ,准确 率 从 原来 的 75% 提 高 到 了 95% 以 上 。 与 之 相反 的 ,在 少量 数据 情况 
下 运行 得 最 好 的 算法 , 当 加 入 更 多 的 数据 时 ,也 会 像 其 他 的 算法 一 样 有 所 提高 ,但 是 却 变 
成 了 在 大 量 数 据 条 件 下 运行 得 最 不 好 的 。 它 的 准确 率 会 从 86% 提 高 到 94%。 

后 来 , 班 科 和 布 里 尔 在 他 们 发 表 的 研究 论文 中 写 到 .“ 如 此 一 来 ,我 们 得 重新 衡量 一 下 
更 多 的 人 力 物力 是 应 该 消耗 在 算法 发 展 上 还 是 在 语料库 发 展 上 。” 


1.3.2 大 数据 的 简单 算法 与 小 数据 的 复杂 算法 


20 世纪 40 年 代 , 计 算 机 由 真空 管制 成 ,要 占据 整个 房间 这 么 大 的 空间 ,而 机 器 翻译 
也 只 是 计算 机 开发 人 员 的 一 个 想法 。 在 冷战 时 期 ,美国 掌握 了 大 量 关于 苏联 的 各 种 资料 ， 
但 缺少 翻译 这 些 资料 的 人 手 。 所 以 ,计算 机 翻译 也 成 了 号 待 解决 的 问题 。 

最 初 ,计算 机 研发 人 员 打算 将 语法 规则 和 双语 词典 结合 在 一 起 。1954 年 ,IBM 以 计 
算 机 中 的 250 个 词语 和 6 条 语法 规则 为 基础 ,将 60 个 俄语 词组 翻译 成 了 英语 ,结果 振奋 
人 心 。IBM 701 通过 穿孔 卡片 读 取 了 一 句 话 ,并 将 其 译 成 了 “我 们 通过 语言 来 交流 思想 ”。 
在 庆祝 这 个 成 就 的 发 布 会 上 ,一 篇 报道 就 有 提 到 ,这 60 句 话 翻译 得 很 流畅 。 这 个 程序 的 
指挥 官 利 晶 。 多 斯 特 尔 特 表 示 , 他 相信 “在 三 五 年 后 ,机 器 翻译 将 会 变 得 很 成 熟 ”。 

事实 证 明 , 计 算 机 翻译 最 初 的 成 功 误导 了 人 们 。1966 年 ,一 群 机 器 翻译 的 研究 人 员 
意识 到 ,翻译 比 他 们 想象 的 更 困难 ,他 们 不 得 不 承认 自己 的 失败 。 机 器 翻译 不 能 只 是 让 计 
算 机 熟悉 常用 规则 ,还 必须 教会 计算 机 处 理 特殊 的 语言 情况 。 毕 竞 ,翻译 不 仅仅 只 是 记忆 
和 复述 ,也 涉及 选 词 ,而 明确 地 教会 计算 机 这 些 非常 不 现实 。 

在 20 世纪 80 年 代 后 期 ,IBM 的 研发 人 员 提 出 了 一 个 新 的 想法 。 与 单纯 教 给 计算 机 
语言 规则 和 词汇 相 比 ,他 们 试图 让 计算 机 自己 估算 一 个 词 或 一 个 词组 适合 于 用 来 翻译 另 
一 种 语言 中 的 一 个 词 和 词组 的 可 能 性 ,然后 再 决定 某 个 词 和 词组 在 另 一 种 语言 中 的 对 等 
词 和 词组 。 

20 世纪 90 年 代 ,IBM 这 个 名 为 Candide 的 项 目 花费 了 大 概 十 年 的 时 间 , 将 大 约 有 
300 万 名 之 多 的 加 拿 大 议会 资料 译 成 了 英语 和 法 语 并 出 版 。 由 于 是 官方 文件 ,翻译 的 标 
准 就 非常 高 。 用 那个 时 候 的 标准 来 看 ,数据 量 非常 庞大 。 统 计 机 器 学 习 从 诞生 之 日 起 ,就 
聪明 地 把 翻译 的 挑战 变 成 了 一 个 数学 问题 ,而 这 似乎 很 有 效 ! 计算 机 翻译 能 力 在 短 时 间 
内 就 提高 了 很 多 。 然 而 ,在 这 次 飞跃 之 后 ,IBM 公司 尽管 投入 了 很 多 资金 ,但 取得 的 成 效 
不 大 。 最 终 ,IBM 公司 停止 了 这 个 项 目 。 

2006 年 ,谷歌 公司 也 开始 涉足 机 器 翻译 ,这 被 当 作 实现 “收集 全 世界 的 数据 资源 ,并 
让 人 人 都 可 享受 这 些 资源 ”这 个 目标 的 一 个 步 又。 谷歌 翻译 开始 利用 一 个 更 大 更 繁杂 的 
数据 库 , 也 就 是 全 球 的 互联 网 ,而 不 再 只 利用 两 种 语言 之 间 的 文本 翻译 。 
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为 了 训练 计算 机 ,谷歌 翻译 系统 会 吸收 它 能 找到 的 所 有 翻译 。 它 从 各 种 各 样 语言 的 
公司 网 站 上 寻找 对 译文 档 , 还 会 去 寻找 联合 国 和 欧盟 这 些 国际 组 织 发 布 的 官方 文件 和 报 
告 的 译本 。 它 甚至 会 吸收 速 读 项 目 中 的 书籍 翻译 。 谷 歌 翻译 部 的 负责 人 弗 朗 效 。 奥 齐 是 
机 器 翻译 界 的 权威 ,他 指出 “谷歌 的 翻译 系统 不 会 像 Candide 一 样 只 是 仔细 地 翻译 
300 万 句 话 , 它 会 掌握 用 不 同 语言 翻译 的 质量 参差 不 齐 的 数 十 亿 页 的 文档 .” 不 考虑 翻译 
质量 的 话 , 上 万 亿 的 语料库 就 相当 于 950 亿 句 英语 。 

尽管 其 输入 源 很 混乱 ,但 较 其 他 翻译 系统 而 言 ,谷歌 的 翻译 质量 是 最 好 的 ,而 且 可 翻 
译 的 内 容 更 多 。 到 2012 年 ,谷歌 数据 库 涵盖 了 60 多 种 语言 ,甚至 能 够 接受 14 种 语言 
语音 输入 ,并 有 很 流利 的 对 等 翻译 。 之 所 以 能 做 到 这 些 , 是 因为 它 将 语言 视 为 能 够 判别 可 
能 性 的 数据 ,而 不 是 语言 本 身 。 如 果 要 将 印度 语 译 成 加 泰 罗 尼 亚 语 ,谷歌 就 会 把 英语 作为 
中 介 语 言 。 因 为 在 翻译 的 时 候 它 能 适当 增 减 词汇 ,所 以 谷歌 的 翻译 比 其 他 系统 的 翻译 灵 
活 很 多 。 

谷歌 的 翻译 之 所 以 更 好 并 不 是 因为 它 拥 有 一 个 更 好 的 算法 机 制 。 和 微软 的 班 科 和 布 
里 尔 一 样 ,这 是 因为 谷歌 翻译 增加 了 各 种 各 样 的 数据 。 从 谷歌 的 例子 来 看 , 它 之 所 以 能 比 
IBM 的 Candide 系统 多 利用 成 千 上 万 的 数据 ,是 因为 它 接受 了 有 错误 的 数据 。2006 年 ， 
谷歌 发 布 的 上 万 亿 的 语料库 ,就 是 来 自 于 互联 网 的 一 些 废弃 内 容 。 这 就 是 “训练 集 ”, 可 以 
正确 地 推算 出 英语 词汇 搭配 在 一 起 的 可 能 性 。 

谷歌 公司 人 工 智 能 专家 彼得 诺 维 格 在 一 篇 题 为 (数据 的 非 理 性 效果 ) 的 文章 中 写 
道 ,“ 大 数据 基础 上 的 简单 算法 比 小 数据 基础 上 的 复杂 算法 更 加 有 效 。” 他 们 指出 一 一 混杂 
是 关键 。 

“由 于 谷歌 语料库 的 内 容 来 自 于 未 经 过 滤 的 网 页 内 容 , 所 以 会 包含 一 些 不 完整 的 句 
子 、 拼 写 错误 ,语法 错误 以 及 其 他 各 种 错误 。 况且, 它 也 没有 详细 的 人 工 纠 错 后 的 注解 。 
但 是 ,谷歌 语料库 的 数据 优势 完全 压倒 了 缺点 。” 


1.3.3 纷繁 的 数据 越 多 越 好 


通常 传统 的 统计 学 家 都 很 难 容忍 错误 数据 的 存在 ,在 收集 样本 的 时 候 , 他 们 会 用 一 整 
套 的 策略 来 减少 错误 发 生 的 概率 。 在 结果 公布 之 前 ,他 们 也 会 测试 样本 是 否 存在 潜在 的 
系统 性 偏差 。 这 些 策 略 包括 根据 协议 或 通过 受过 专门 训练 的 专家 来 采集 样本 。 但 是 , 即 
使 只 是 少量 的 数据 ,这 些 规 避 错 误 的 策略 实施 起 来 还 是 耗费 巨大 。 尤 其 是 当 我 们 收集 所 
有 数据 的 时 候 , 在 大 规模 的 基础 上 保持 数据 收集 标准 的 一 致 性 不 太 现实 。 

如 今 ,人 们 已 经 生活 在 信息 时 代 , 掌 握 的 数据 库 越 来 越 全 面 , 它 包括 了 与 这 些 现象 相关 
的 大 量 甚至 全 部 数据 。 我 们 不 再 需要 那么 担心 某 个 数据 点 对 整套 分 析 的 不 利 影响 ,我 们 要 
做 的 就 是 接受 这 些 纷繁 的 数据 并 从 中 受益 ,而 不 是 以 高 昂 的 代价 消除 所 有 的 不 确定 性 。 

在 华盛顿 州 布 菜 恩 市 的 英国 石油 公司 (BP) 切 里 波 因 特 炼油 厂 (图 1-8) 里 ,无 线 感应 
器 遍布 于 整个 工厂 ,形成 无 形 的 网 络 ,能 够 产生 大 量 实 时 数据 。 在 这 里 ,酷热 的 恶劣 环境 
和 电气 设备 的 存在 有 时 会 对 感应 器 读数 有 所 影响 .形成 错误 的 数据 。 但 是 数据 生成 的 数 
量 之 多 可 以 弥补 这 些小 错误 。 随 时 监测 管道 的 承 压 使 得 BP 能 够 了 解 到 ,有 些 种 类 的 原 
油 比 其 他 种 类 更 具有 腐蚀 性 。 以 前 ,这 都 是 无 法 发 现 也 无 法 防止 的 。 
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有 时 候 , 当 我 们 掌握 了 大 量 新 型 数据 时 ,精确 性 就 不 那么 重要 了 ,我 们 同样 可 以 掌握 
事情 的 发 展 趋势 。 除 了 一 开始 会 与 我 们 的 直觉 相 矛 盾 之 外 ,接受 数据 的 不 精确 和 不 完美 ， 
反而 能 够 更 好 地 进行 预测 ,也 能 够 更 好 地 理解 这 个 世界 。 

值得 注意 的 是 ,错误 性 并 不 是 大 数据 本 身 固有 的 特性 ,而 是 一 个 急需 我 们 去 处 理 的 现 
实 问 题 ,并 且 有 可 能 长 期 存在 。 它 只 是 我 们 用 来 测量 、 记 录 和 交流 数据 的 工具 的 一 个 缺 
陷 。 因 为 拥有 更 大 数据 量 所 能 带 来 的 商业 利益 远 远 超过 增加 一 点 精确 性 ,所 以 通常 我 们 
不 会 再 花 大 力气 去 提升 数据 的 精确 性 。 这 又 是 一 个 关注 焦点 的 转变 ,正如 以 前 ,统计 学 家 
们 总 是 把 他 们 的 兴趣 放 在 提高 样本 的 随机 性 而 不 是 数量 上 。 如 今 , 大 数据 给 我 们 带 来 的 
利益 ,让 我 们 能 够 接受 不 精确 的 存在 了 。 


1.3.4 5%% 的 数字 数据 与 95% 的 非 结 构 化 数据 


据 估计 ,只 有 5% 的 数字 数据 是 结构 化 的 且 能 适用 于 传统 数据 库 。 如 果 不 接 受 混乱 ， 
剩 下 95% 的 非 结 构 化 数据 都 无 法 被 利用 ,例如 网 页 和 视频 资源 。 

我 们 怎么 看 待 使 用 所 有 数据 和 使 用 部 分 数据 的 差别 ,以 及 我 们 怎样 选择 放松 要 求 并 
取代 严格 的 精确 性 ,将 会 对 我 们 与 世界 的 沟通 产生 深刻 的 影响 。 随 着 大 数据 技术 成 为 日 
常生 活 中 的 一 部 分 ,我 们 应 该 开始 从 一 个 比 以 前 更 大 更 全 面 的 角度 来 理解 事物 ,也 就 是 说 
应 该 将 “样本 王 总体” 植 人 我 们 的 思维 中 。 

相 比 依赖 于 小 数据 和 精确 性 的 时 代 . 大 数据 因为 更 强调 数据 的 完整 性 和 混杂 性 ,帮助 
我 们 进一步 接近 事实 的 真相 。 当 我 们 的 视野 局 限 在 我 们 可 以 分 析 和 能 够 确定 的 数据 上 
时 ,我 们 对 世界 的 整体 理解 就 可 能 产生 偏差 和 错误 。 不 仅 失 去 了 去 尽力 收集 一 切 数据 的 
动力 ,也 失去 了 从 各 个 不 同 角度 来 观察 事物 的 权利 。 所 以 ,局 限于 狭隘 的 小 数据 中 ,我 们 
可 以 自豪 于 对 精确 性 的 追求 ,但 是 就 算 我 们 可 以 分 析 得 到 细节 中 的 细节 ,也 依然 会 错过 事 
物 的 全 貌 。 

大 数据 要 求 我 们 有 所 改变 ,我 们 必须 能 够 接受 混乱 和 不 确定 性 。 精 确 性 似乎 一 直 是 
我 们 生活 的 支撑 ,但 认为 每 个 问题 只 有 一 个 答案 的 想法 是 站 不 住 脚 的 。 
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14 思维 变革 之 三 : 数据 的 相关 关系 


在 传统 观念 下 ,人 们 总 是 致力 于 找到 一 切 事情 发 生 背 后 的 原因 。 然 而 在 很 多 时 候 , 寻 
找 数据 间 的 关联 并 利用 这 种 关联 就 足够 了 。 这 些 思想 上 的 重大 转变 导致 了 第 三 个 变革 : 
我 们 尝试 着 不 再 探求 难以 捉摸 的 因果 关系 , 转 而 关注 事物 的 相关 关系 。 相 关 关 系 也 许 不 
能 准确 地 告知 我 们 某 件 事情 为 何 会 发 生 ,但 是 它 会 提醒 我 们 这 件 事情 正在 发 生 。 在 许多 
情况 下 ,这 种 提醒 的 帮助 已 经 足够 大 了 。 

如 果 数 百 万 条 电子 医疗 记录 显示 橙汁 和 阿司匹林 的 特定 组 合 可 以 治疗 癌症 ,那么 找 
出 具体 的 药理 机 制 就 没有 这 种 治疗 方法 本 身 来 得 重要 。 同 样 ,只 要 我 们 知道 什么 时 候 是 
买 机 票 的 最 佳 时 机 ,就 算 不 知道 机 票 价格 疯狂 变动 的 原因 也 无 所 谓 了 。 大 数据 告诉 我 们 
“是 什么 ”而 不 是 “为 什么 ”。 在 大 数据 时 代 ,我 们 不 必 知 道 现 象 背后 的 原因 ,我 们 只 要 让 数 
据 自 己 发 声 。 我 们 不 再 需要 在 还 没有 收集 数据 之 前 ,就 把 分 析 建 立 在 早已 设立 的 少量 假 
设 的 基础 之 上 。 让 数据 发 声 ,我 们 会 注意 到 很 多 以 前 从 来 没有 意识 到 的 联系 的 存在 。 


1.4.1 关联 物 ,预测 的 关键 


虽然 在 小 数据 世界 中 相关 关系 也 是 有 用 的 ,但 如 今 在 大 数据 的 背景 下 ,通过 应 用 相关 
关系 ,我 们 可 以 比 以 前 更 容易 ,更 快捷 ,更 清楚 地 分 析 事物 。 

所 谓 相 关 关 系 , 其 核心 是 指 量 化 两 个 数据 值 之 间 的 数理 关系 。 相 关 关 系 强 是 指 当 一 
个 数据 值 增加 时 , 另 一 个 数据 值 很 有 可 能 也 会 随 之 增加 。 我 们 已 经 看 到 过 这 种 很 强 的 相 
关 关 系 , 例 如 谷歌 流感 趋势 : 在 一 个 特定 的 地 理 位 置 , 越 多 的 人 通过 谷歌 搜索 特定 的 词 
条 ,该 地 区 就 有 更 多 的 人 患 了 流感 。 相 反 , 相 关 关 系 弱 就 意味 着 当 一 个 数据 值 增加 时 , 另 
一 个 数据 值 几乎 不 会 发 生变 化 。 例 如 ,我 们 可 以 寻找 关于 个 人 的 鞋 码 和 幸福 的 相关 关系 ， 
但 会 发 现 它们 几乎 扯 不 上 什么 关系 。 

相关 关系 通过 识别 有 用 的 关联 物 来 帮助 我 们 分 析 一 个 现象 ,而 不 是 通过 揭示 其 内 部 
的 运作 机 制 。 当 然 ,即使 是 很 强 的 相关 关系 也 不 一 定 能 解释 每 一 种 情况 ,例如 两 个 事物 看 
上 去 行为 相似 ,但 很 有 可 能 只 是 巧合 。 相 关 关 系 没有 绝对 .只 有 可 能 性 。 也 就 是 说 ,不 是 
亚马逊 推荐 的 每 本 书 都 是 顾客 想 买 的 书 。 但 是 ,如 果 相 关 关 系 强 ,一 个 相关 链接 成 功 的 概 
率 是 很 高 的 。 这 一 点 很 多 人 可 以 证 明 , 他 们 的 书架 上 有 很 多 书 都 是 因为 亚马逊 推荐 而 购 
买 的 。 

通过 找到 一 个 现象 的 良好 的 关联 物 ,相关 关系 可 以 帮助 我 们 捕 提 现在 和 预测 未 来 。 
如 果 A 和 了 经 常 一 起 发 生 ,我们 只 需要 注意 到 B 发 生 了 . 就 可 以 预测 A 也 发 生 了 。 这 有 
助 于 我 们 捕 提 可 能 和 A 一 起 发 生 的 事情 ,即使 我 们 不 能 直接 测量 或 观察 到 A。 更 重要 的 
是 , 它 还 可 以 帮助 我 们 预测 未 来 可 能 发 生 什么 。 当 然 , 相 关 关 系 是 无 法 预知 未 来 的 ,他 们 
只 能 预测 可 能 发 生 的 事情 。 但 是 ,这 已 经 极其 珍贵 了 。 

在 大 数据 时 代 ,建立 在 相关 关系 分 析 法 基础 上 的 预测 是 大 数据 的 核心 。 这 种 预测 发 
生 的 频率 非常 高 ,以 至 于 我 们 经 常 忽略 了 它 的 创新 性 。 当 然 , 它 的 应 用 会 越 来 越 多 。 

在 社会 环境 下 寻找 关联 物 只 是 大 数据 分 析 法 采取 的 一 种 方式 。 同 样 有 用 的 一 种 方法 
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是 : 通过 找 出 新 种 类 数据 之 间 的 相互 联系 来 解决 日 常 需要 。 比 方 说 ,一 种 称 为 预测 分 析 
法 的 方法 就 被 广泛 地 应 用 于 商业 领域 , 它 可 以 预测 事件 的 发 生 。 这 可 以 指 一 个 能 发 现 可 
能 的 流行 歌曲 的 算法 系统 一 一 音乐 界 广 泛 采用 这 种 方法 来 确保 它们 看 好 的 歌曲 真 的 会 流 
行 ;也 可 以 指 那些 用 来 防止 机 器 失效 和 建筑 倒塌 的 方法 。 现 在 ,在 机 器 ,发 动机 和 桥梁 等 
基础 设施 上 放 管 传感器 变 得 越 来 越 平常 了 ,这 些 传感器 被 用 来 记录 散发 的 热量 、 振 幅 、 承 
压 和 发 出 的 声音 等 。 

一 个 东西 要 出 故障 ,不 会 是 瞬间 的 ,而 是 慢 慢 地 出 问题 的 。 通 过 收集 所 有 的 数据 ,我 
们 可 以 预先 捕捉 到 事物 要 出 故障 的 信号 ,比方 说 发 动机 的 喻 喻 声 . 引 擎 过 热 都 说 明 它 们 可 
能 要 出 故障 了 。 系 统 把 这 些 异常 情况 与 正常 情况 进行 对 比 , 就 会 知道 什么 地 方 出 了 毛病 。 
通过 尽早 地 发 现 异 常 ,系统 可 以 提醒 我 们 在 故障 之 前 更 换 零 件 或 者 修复 问题 。 通 过 找 出 
一 个 关联 物 并 监控 它 ,我 们 就 能 预测 未 来 。 


1.4.2 “是 什么 ”, 而 不 是 “为 什么 ” 


在 小 数据 时 代 , 相 关 关 系 分 析 和 因果 分 析 都 不 容易 ,耗费 巨大 ,都 要 从 建立 假设 开始 ， 
然后 进行 实验 一 一 这 个 假设 要 么 被 证 实 要 么 被 推翻 。 但 是 ,由 于 两 者 都 始 于 假设 ,这 些 分 
析 就 都 有 受 偏见 影响 的 可 能 , 极 易 导致 错误 。 与 此 同时 ,用 来 做 相关 关系 分 析 的 数据 很 难 
得 到 。 

男 一 方面 ,在 小 数据 时 代 , 由 于 计算 机 能 力 的 不 足 , 大 部 分 相关 关系 分 析 仅 限于 寻求 
线性 关系 。 而 事实 上 ,实际 情况 远 比 我 们 所 想象 的 要 复杂 。 经 过 复杂 的 分 析 ,我 们 能 够 发 
现 数 据 的 “ 非 线 性 关系 ”。 

多 年 来 ,经 济 学 家 和 政治 家 一 直 认为 收入 水 平和 幸福 感 是 成 正比 的 。 从 数据 图 表 上 可 
以 看 到 ,虽然 统计 工具 呈现 的 是 一 种 线性 关系 ,但 事实 上 ,它们 之 间 存 在 一 种 更 复杂 的 动态 
关系 。 例 如 ,对 于 收入 水 平 在 一 万 美元 以 下 的 人 来 说 ,一 旦 收入 增加 ,幸福 感 会 随 之 提升 ;但 
对 于 收入 水 平 在 一 万 美元 以 上 的 人 来 说 ,幸福 感 并 不 会 随 着 收入 水 平 的 提高 而 提升 。 如 果 
能 发 现 这 层 关系 ,我 们 看 到 的 就 应 该 是 一 条 曲线 ,而 不 是 统计 工具 分 析出 来 的 直线 。 

这 个 发 现 对 决策 者 来 说 非常 重要 。 如 果 只 看 到 线性 关系 的 话 , 那 么 政策 重心 应 完全 
放 在 增加 收入 上 ,因为 这 样 才能 增加 全 民 的 幸福 感 。 而 一 旦 察觉 到 这 种 非 线性 关系 ,策略 
的 重心 就 会 变 成 提高 低 收入 人 群 的 收入 水 平 ,因为 这 样 明显 更 划算 。 

大 数据 时 代 , 专 家 们 正在 研发 能 发 现 并 对 比分 析 非 线性 关系 的 技术 工具 。 一 系列 飞 
速 发 展 的 新 技术 和 新 软件 也 从 多 方面 提高 了 相关 关系 分 析 工 具 发 现 非 因 果 关 系 的 能 力 。 
这 些 新 的 分 析 工 具 和 思路 为 我 们 展现 了 一 系列 新 的 视野 被 有 用 地 预测 ,我们 看 到 了 很 多 
以 前 不 曾 注意 到 的 联系 ,还 掌握 了 以 前 无 法 理解 的 复杂 技术 和 社会 动态 。 但 最 重要 的 是 ， 
通过 去 探求 “是 什么 ”而 不 是 “为 什么 ,相关 关系 帮助 我 们 更 好 地 了 解 了 这 个 世界 。 


1.4.3 通过 因果 关系 了 解 世 界 


传统 情况 下 ,人 类 是 通过 因果 关系 了 解 世 界 的 。 首 先 ,我 们 的 直接 愿望 就 是 了 解 因果 
关系 。 即 使 无 因果 联系 存在 ,我们 也 还 是 会 假定 其 存在 。 研 究 证 明 , 这 只 是 我 们 的 认 知 方 
式 , 与 每 个 人 的 文化 背景 ,生长 环境 以 及 教育 水 平 无 关 。 当 我 们 看 到 两 件 事情 接连 发 生 的 
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时 候 , 我 们 会 习惯 性 地 从 因果 关系 的 角度 来 看 竺 它们。 

在 小 数据 时 代 , 很 难 证 明 由 直觉 而 来 的 因果 联系 是 错误 的 。 现 在 ,情况 不 一 样 了 。 将 
来 ,大 数据 之 间 的 相关 关系 将 经 常会 用 来 证 明 直 觉 的 因果 联系 是 错误 的 。 最 终 也 能 表明 , 
统计 关系 也 不 蕴含 多 少 真实 的 因果 关系 。 总 之 ,我 们 的 快速 思维 模式 将 会 遭受 各 种 各 样 
的 现实 考验 。 

为 了 更 好 地 了 解 世界 ,我 们 会 因此 更 加 努力 地 思考 。 但 是 ,即使 是 我 们 用 来 发 现 因果 
关系 的 第 二 种 思维 方式 一 一 慢性 思维 ,也 将 因为 大 数据 之 间 的 相关 关系 迎 来 大 的 改变 。 

日 常生 活 中 ,我 们 习惯 性 地 用 因果 关系 来 考虑 事情 ,所 以 会 认为 ,因果 联系 是 浅显 易 寻 
的 。 但 事实 却 并 非 如 此 。 与 相关 关系 不 一 样 , 即 使 用 数学 这 种 比较 直接 的 方式 ,因果 联系 也 
很 难 被 轻易 证 明 。 我 们 也 不 能 用 标准 的 等 式 将 因果 关系 表达 清楚 。 因 此 ,即使 我 们 慢 慢 思 
考 , 想 要 发 现 因果 关系 也 是 很 困难 的 。 因 为 我 们 已 经 习惯 了 信息 的 匮乏 ,故此 亦 习惯 了 在 少 
量 数据 的 基础 上 进行 推理 思考 ,即使 大 部 分 时 候 很 多 因素 都 会 前 弱 特 定 的 因果 关系 。 

与 相关 关系 一 样 ,因果 关系 被 完全 证 实 的 可 能 几乎 是 没有 的 ,我 们 只 能 说 , 某 两 者 之 
间 很 有 可 能 存在 因果 关系 。 


1.4.4 通过 相关 关系 了 解 世 界 


不 像 因 果 关 系 , 证 明 相 关 关 系 的 实验 耗资 少 ,费时 也 少 。 与 之 相 比 , 分 析 相 关 关 系 , 我 
们 既 有 数学 方法 ,也 有 统计 学 方法 ,同时 ,数字 工具 也 能 帮 有 我 们 准确 地 找 出 相关 关系 。 

相关 关系 分 析 本 身 意义 重大 ,同时 它 也 为 研究 因果 关系 奠定 了 基础 。 通 过 找 出 可 能 
相关 的 事物 ,我 们 可 以 在 此 基础 上 进行 进一步 的 因果 关系 分 析 。 如 果 存 在 因果 关系 的 话 ， 
我 们 再 进一步 找 出 原因 。 这 种 便捷 的 机 制 通过 实验 降低 了 因果 分 析 的 成 本 。 我 们 也 可 以 
从 相互 联系 中 找到 一 些 重要 的 变量 ,这些 变量 可 以 用 到 验证 因果 关系 的 实验 中 去 。 

例如 ,Kaggle 公司 举办 了 关于 二 手 车 的 质量 竞赛 。 二 手 车 经 销 商 将 二 手 车 数据 提供 
给 参加 比赛 的 统计 学 家 ,统计 学 家 们 用 这 些 数据 建立 一 个 算法 系统 来 预测 经 销 商 拍卖 的 
哪些 车 有 可 能 出 现 质量 问题 。 相 关 关系 分 析 表 明 ,橙色 的 车 有 质量 问题 的 可 能 性 只 有 其 
他 车 的 一 半 。 

这 难道 是 因为 橙色 车 的 车 主 更 爱 车 ,所 以 车 被 保护 得 更 好 吗 ? 或 是 这 种 颜色 的 车 子 
在 制造 方面 更 精良 些 吗 ? 还 是 因为 橙色 的 车 更 显眼 .出 车 祸 的 概率 更 小 ,所 以 转手 的 时 
候 . 各 方面 的 性 能 保持 得 更 好 ? 

马上 ,我 们 就 陷入 了 各 种 各 样 迹 一 样 的 假设 中 。 若 要 找 出 相关 关系 ,可 以 用 数学 方 
法 ,但 如 果 是 因果 关系 的 话 ,这 却 是 行 不 通 的 。 所 以 ,我 们 没 必 要 一 定 要 找 出 相关 关系 背 
后 的 原因 , 当 我 们 知道 了 “是 什么 ”的 时 候 ,“ 为 什么 ”其实 没 那么 重要 了 ,否则 就 会 催生 一 
些 滑 稽 的 想法 。 比 方 说 上 面 提 到 的 例子 里 ,我 们 是 不 是 应 该 建议 车 主 把 车 漆 成 橙色 呢 ? 
毕竟 ,这样 就 说 明 车 子 的 质量 更 过 硬 啊 ! 

考虑 到 这 些 ,如 果 把 以 确凿 数据 为 基础 的 相关 关系 和 通过 快速 思维 构想 出 的 因果 关 
系 相 比 的 话 ,前 者 就 更 具有 说 服 力 。 但 在 越 来 越 多 的 情况 下 ,快速 清晰 的 相关 关系 分 析 甚 
至 比 慢 速 的 因果 分 析 更 有 用 和 更 有 效 。 慢 速 的 因果 分 析 集 中 体现 为 通过 严格 控制 的 实验 
来 验证 的 因果 关系 ,而 这 必然 是 非常 耗 时 耗 力 的 。 


太 数 据 可 钢化 


在 大 多 数 情况 下 ,一旦 我 们 完成 了 对 大 数据 的 相关 关系 分 析 , 而 又 不 再 满足 于 仅仅 知 
道 “ 是 什么 ”时 ,我 们 就 会 继续 向 更 深层 次 研究 因果 关系 , 找 出 背后 的 “为 什么 ”。 
因果 关系 还 是 有 用 的 ,但 是 它 将 不 再 被 看 成 是 意义 来 源 的 基础 。 在 大 数据 时 代 , 即 使 很 
多 情况 下 ,我们 依然 指望 用 因果 关系 来 说 明 我 们 所 发 现 的 相互 联系 ,但 是 ,我 们 知道 因果 关 
系 只 是 一 种 特殊 的 相关 关系 。 相 反 , 大 数据 推动 了 相关 关系 分 析 。 相 关 关 系 分 析 通 常情 况 
下 能 取代 因果 关系 起 作用 ,即使 不 可 取代 的 情况 下 , 它 也 能 对 指导 因果 关系 起 作用 。 


【延伸 阅读 】 

















美国 百 亿 美元 望远镜 主 镜 安装 完毕 


哈 勃 太空 望远镜 (Hubble Space Telescope, HST, 图 1-9) 是 以 天 文学 家 爱 德 温 。 哈 
勃 为 名 ,在 轨道 上 环绕 着 地 球 的 望远镜 , 它 的 位 置 在 地 球 的 大 气 层 之 上 ,因此 影像 不 会 受 
到 大 气 灌流 的 扰动 , 视 相 度 绝 佳 又 没有 大 气 散 射 造成 的 背景 光 , 还 能 观测 会 被 揣 氧 层 吸 收 
的 紫外 线 。 它 于 1990 年 成 功 发 射 , 弥 补 了 地 面 观测 的 不 足 , 帮 助 天 文学 家 解决 了 许多 天 
文学 上 的 基本 问题 ,使 得 人 类 对 天 文物 理 有 更 多 的 认识 。2013 年 12 月 ,天 文学 家 利用 哈 
勃 太 空 望远镜 在 太阳 系 外 发 现 5 颗 行 星 ,它们 的 大 气 层 中 都 有 水 存在 的 迹象 ,是 首次 能 确 
定性 地 测量 多 个 系 外 行星 的 大 气 光 谱 信 号 特征 与 强度 ,并 进行 比较 。 





图 1-9 ” 哈 勃 太空 望远镜 


据 国 外 媒体 报道 ,美国 宇航 局 即将 在 2018 年 发 射 的 磨 姆 斯 -韦伯 太空 望远镜 是 哈 亏 
望远镜 的 继承 者 ,这 具 价 值 88 亿美 元 的 空间 望远镜 有 望 揭 开 宇宙 的 奥秘 ,因此 它 素 有 “时 
间 机 器 ”的 美 名 。 这 架 巨 大 的 空间 望远镜 于 美国 当地 时 间 2016 年 2 月 4 日 ,由 美国 宇航 
局 成 功 完 成 最 后 一 片 镜片 的 安装 ,这 也 成 为 了 该 望远镜 十 余 载 建造 史上 的 一 座 重要 的 里 
程 碑 。 

在 位 于 马里 兰州 的 美国 宇航 局 蕊 达 德 航天 飞行 中 心 的 洁净 室内 ,研究 团队 使 用 机 械 
手 对 韦伯 望远镜 进行 组 装 。 经 过 机 械 臂 测量 ,韦伯 望远镜 的 每 一 片 六 角形 镜片 的 对 角 线 
都 大 于 4.2 英尺 ,相当 于 1.3 米 ,这 个 尺寸 大 约 和 咖啡 桌 一 般 大 小 ,每 片 镜片 的 重量 大 的 
重 88 磅 ,相当 于 40 千克 (图 1-10) 。 

美国 宇航 局 副 局 长 约翰 一 格 伦 费 尔 德 表示 ,工程 师 们 孜孜 不 倦 地 完成 了 这 些 不 可 思议 、 
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图 1-10 詹姆斯 -韦伯 太空 望远镜 





图 1-11 安装 镜片 


美国 宇航 局 韦伯 望远镜 的 最 大 特点 是 它 拥有 一 个 网 球场 大 小 的 五 层 遮 阳 板 ,能 够 将 
太阳 的 灼热 减弱 至 一 百 万 分 之 一 。 为 了 保证 科学 探索 的 成 功 , 书 伯 望 远 镜 的 镜片 需要 精 
确 排 列 。 在 极 寒 条 件 下 , 当 温 度 介 于 零下 406 到 零下 343 华氏 度 时 ,望远镜 的 底板 位 移 不 
得 超过 38nm, 大 约 是 人 类 毛发 直径 的 千 分 之 一 。 

韦伯 望远镜 预计 于 2018 年 发 射 , 它 将 成 为 世界 规模 最 大 、 功 能 最 强 的 望远镜 。 它 的 
能 力 将 达到 哈 勃 望远镜 的 100 倍 ,能 够 观察 到 宇宙 大 爆炸 后 两 亿 年 的 场景 。 一 旦 完成 太 
空 全 面部 署 ,18 片 基 本 镜片 将 和 一 片 直径 为 21.3 英尺 (6.5 米 ) 的 大 镜片 一 道 运作 。 

与 目前 在 地 球 近 地 轨道 上 运行 的 哈 勃 望远镜 不 同 , 韦 伯 望 远 镜 的 目的 地 更 加 适 远 。 
它 将 被 发 射 到 一 个 被 称 为 L2 的 地 方 ,即日 地 拉 格 朗 日 点 2. 该 点 位 于 距离 地 球 表面 大 约 
930 000 英里 (150 万 千 米 ) 的 高 度 ( 图 1-12) 。 





图 1-12 韦伯 望远镜 的 目的 地 
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美国 宇航 局 表示 ,韦伯 太空 望远镜 是 一 部 拥有 红外 视觉 的 强大 的 时 间 机 器 , 它 能 够 回 
到 135 亿 年 前 的 宇宙 ,探索 在 早期 宇宙 的 黑暗 中 形成 的 第 一 批 星 球 与 星系 。150 万 千 米 
的 超 远 轨道 使 得 它 能 够 保持 低温 运作 ,以 免 其 观测 受到 自身 红外 线 和 外 界 辐射 的 影响 
〈《 轩 1-137。 





Seeing back into the cosmos 





图 1-13 超 远 轨道 


的 3.5 亿美 元 ,接近 2. 33 亿 英 镑 的 预算 ,此 事 也 引起 了 立法 者 的 关注 , 堪 称 是 史上 最 
的 空间 望远镜 (图 1-14)。 


JWST Launch/Deployment Timeline 
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SolarAray 
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> Sunshield Full 


(L+120 min) We Deployment ~ (L+7.5&8.6days) 


Gimbaled Antenna Assy PMBA Wing 
(GAA) Deployment Deployments 
一 人 L+14 days) 
(L+ 3.1days) 
Sunshield AR UPS / ~ ee 


De 人 Assy Deployment 
(L+ 6.3 days) 7 


SMSS Deployment 
化 +81 days) ep 
Primary Mimor ps 
SegmentAssy 7 2 
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图 1-14 韦伯 望远镜 登陆 计划 


资料 来 源 : 罗 辑 编译 ,腾讯 太空 ,2016 年 2 月 7 日 


24 


第 趾 铺 册 克 量 司 办 盟 扎 国 相 


【实验 与 思考 】 
深入 理解 大 数据 时 代 
1. 实验 目的 


(1) 熟悉 大 数据 时 代 思 维 变革 的 基本 概念 和 主要 内 容 ; 
(2) 理解 在 传统 情况 下 ,人 们 分 析 信 息 了 解 世 界 的 主要 方法 ;分 析 大 数据 时 代 人 们 思 
维 变革 的 三 大 转变 。 


2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


3. 实验 内 容 与 步 又 


(1) 大 数据 时 代 人 们 分 析 信 息 、 理 解 世界 的 三 大 转变 是 指 什么 了 
答 : 
on 





























(2) 请 简 述 , 在 大 数据 时 代 , 为 什么 要 ”分析 与 某 事物 相关 的 所 有 数据 ,而 不 是 依靠 分 
析 少 量 的 数据 样本 ”? 
答 : 




















(3) 请 简 述 ,在 大 数据 时 代 , 为 什么 “我 们 乐于 接受 数据 的 纷繁 复杂 ,而 不 再 一 味 追 求 
其 精确 性 ”? 
答 


三 : 











为 娄 电 回 钢 呈 











(4) 什么 是 数据 的 因果 关系 ? 什么 是 数据 的 相关 关系 ? 
答 : 




















(5) 请 简 述 ,在 大 数据 时 代 , 为 什么 “我 们 不 再 探求 难以 捉摸 的 因果 关系 , 转 而 关注 事 
物 的 相关 关系 ”? 
答 : 




















(6) 网 络 搜索 和 浏览 : 看 看 哪些 网 站 在 支持 大 数据 技术 或 者 数据 科学 的 技术 工作 ， 
请 在 表 1-1 中 记录 你 的 搜索 结果 。 
表 1-1 数据 科学 专业 网 站 实验 记录 
网 站 名 称 网 址 主要 内 容 描 述 


























提示 : 一 些 大 数据 或 者 数据 科学 的 专业 网 站 : 
http://www. thebigdata. cn/( 中 国 大 数据 ) 
http://www. shujukexuejia. com/ (数据 科学 家 ) 
http://www. 51bdtime. com/( 大 数据 时 代 ) 
http://www. moojnn. com/( 大 数据 魔 镜 ) 











你 习惯 使 用 的 网 络 搜索 引擎 是 : 





你 在 本 次 搜索 中 使 用 的 关键 词 主要 是 : 








第 中 镁 央 克 所 司 内 归 所 时 和 







请 记录 : 在 本 实验 中 你 感觉 比较 重要 的 两 个 大 数据 或 者 数据 科学 专业 网 站 是 : 

@ 网 站 名 称 : 

四 网 站 名 称 : 

请 分 析 : 你 认为 各 大 数据 专业 网 站 当前 的 技术 热点 是 什么 (例如 从 培训 项 目 中 得 知 )? 
@ 名称: 
技术 热点 : 























@ 名 称 : 

技术 热点 : 
(3) 名 称 : 
技术 热点 : 


4. 实验 总 结 


























5. 实验 评价 (教师 ) 














数据 可 视 化 之 美 


【导读 案例 】 
南 丁 共和 尔 “ 极 区 图 ” 


弗 洛 伦 斯 。 南 丁 格 尔 (1820 年 5 月 12 日 一 1910 年 8 月 13 日 ,图 2-1) 是 世界 上 第 一 
位 真正 意义 上 的 女 护士 ,被 誉 为 现代 护理 业 之 on. 

母 “5。12” 国 际 护士 节 就 是 为 了 纪念 她 ,这 一 
天 是 南 丁 格 尔 的 生日 。 除 了 在 医学 和 护理 界 
的 辉煌 成 就 ,实际 上 , 南 丁 格 汞 还 是 一 名 优秀 
的 统计 学 家 一 一 她 是 英国 皇家 统计 学 会 的 第 
一 位 女性 会 员 , 也 是 美国 统计 学 会 的 会 员 。 据 
说 南 丁 格 尔 早期 大 部 分 声望 都 来 自 其 对 数据 
清楚 且 准 确 的 表达 。 

南 丁 格 尔 生活 的 时 代 各 个 医院 的 统计 资 
料 非常 不 精确 ,也 不 一 致 ,她 认为 医学 统计 资 
料 有 助 于 改进 医疗 护理 的 方法 和 措施 。 于 是 ， 图 2-1 南 丁 格 尔 
在 她 编著 的 各 类 书籍 、 报 告 等 材料 中 使 用 了 大 
量 的 统计 图 表 , 其 中 最 为 著名 的 就 是 极 区 图 (Polar Area Chart) ,也 叫 南 丁 格 尔 玫 瑰 图 
(图 2-2) 。 南 丁 格 尔 发 现 ,战斗 中 阵亡 的 士兵 数量 少 于 因为 受伤 却 缺乏 治疗 的 士兵 。 为 
了 挽救 更 多 的 士兵 ,她 画 了 这 张 《 东 部 军队 (战士 ) 死 亡 原因 示意 图 》(1858 年 ) 。 

这 张 图 描述 了 1854 年 4 月 一 1856 年 3 月 期 间 的 士兵 死亡 情况 , 右 侧 的 图 是 1854 年 
4 月 一 1855 年 3 月 的 数据 , 左 侧 的 图 是 1855 年 4 月 一 1856 年 3 月 的 数据 ,用 葛 、 红 、 黑 三 
种 颜色 表示 三 种 不 同 的 情况 , 蓝 色 代表 可 预防 和 可 缓解 的 疾病 治疗 不 及 时 造成 的 死亡 、 红 
色 代 表 战 场 阵亡 .黑色 代表 其 他 死亡 原因 。 图 表 各 个 扇 区 角度 相同 ,用 半径 及 扇 区 面积 来 
表示 死亡 人 数 , 可 以 清晰 地 看 出 每 个 月 因 各 种 原因 死亡 的 人 数 。 显 然 ,1854 一 1855 年 , 因 
医疗 条 件 而 造成 的 死亡 人 数 远 远 大 于 战 死 沙 场 的 人 数 , 这 种 情况 直到 1856 年 初 才 得 到 缓 
解 。 南 丁 格 尔 的 这 张 图 表 以 及 其 他 图 表 生 动 有 力 地 说 明了 在 战地 开展 医疗 救护 和 促进 伤 
兵 医疗 工作 的 必要 性 ,打动 了 当局 者 ,增加 了 战地 医院 ,改善 了 军队 医院 的 条 件 , 为 挽救 士 
兵 生命 做 出 了 巨大 贡献 。 

南 丁 格 尔 “ 极 区 图 ”是 统计 学 家 对 利用 图 形 来 展示 数据 进行 的 早期 探索 , 南 丁 格 尔 的 
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图 2-2 南 丁 格 尔 “ 极 区 图 ” 


贡献 ,充分 说 明了 数据 可 视 化 的 价值 ,特别 是 在 公共 领域 的 价值 。 
图 2-3 是 社交 网 站 (Facebook vs. 推 特 ) 对 比 信息 图 ,是 一 张 典 型 的 南 丁 格 尔 玫 瑰 图 
( 极 区 图 ) 的 导读 案例 。 \ 





facebook vs. tw 


abreakdown of 20 


total users 





图 2-3 极 区 图 : Facebook vs. 推 特 


阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 
(1) 你 看 到 过 且 印 象 深刻 的 数据 可 视 化 的 案例 有 哪些 ? 
答 


合 : 
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(2) 你 此 前 知道 南 丁 格 尔 吗 ? 你 此 前 是 否 知道 南 丁 格 尔 玫瑰 图 ? 
答 : 











(3) 发 展 大 数据 可 视 化 ,那么 传统 的 数据 或 信息 的 表示 方式 是 否 还 有 意义 ? 请 简 述 
你 的 看 法 。 
答 : 

















(4) 请 简单 记述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 

















21 数据 与 可 视 化 


数据 是 什么 ? 大 部 分 人 会 含糊 地 回答 说 ,数据 是 一 种 类 似 电子 表格 的 东西 ,或 者 一 大 堆 
数字 。 有 点 儿 技 术 背 景 的 人 会 提 及 数据 库 或 者 数据 仓库 。 然 而 ,这 些 回答 只 说 明了 获取 数 
据 的 格式 和 存储 数据 的 方式 ,并 未 说 明 数 据 的 本 质 是 什么 ,以 及 特定 的 数据 集 代 表 着 什么 。 


2.1.1 数据 是 什么 


数据 不 仅仅 是 数字 ,要 想 把 数据 可 视 化 ,就 必须 知道 它 表 达 的 是 什么 。 事 实 上 ,数据 
是 现实 世界 的 一 个 快照 ,会 传递 给 我 们 大 量 的 信息 。 一 个 数据 点 可 以 包含 时 间 、 地 点 、 人 
物 、 事 件 、 起 因 等 因素 ,因此 ,一 个 数字 不 再 只 是 沧海 一 票 。 可 是 ,从 一 个 数据 点 中 提取 信 
息 并 不 像 一 张 照 片 那么 简单 。 你 可 以 猜 到 照片 里 发 生 的 事情 ,但 如 果 对 数据 心 存 侥幸 , 认 
为 它 非常 精确 ,并 和 周围 的 事物 紧密 相关 ,就 有 可 能 曲解 真实 的 数据 。 你 需要 观察 数据 产 
生 的 来 龙 去 脉 , 并 把 数据 集 作为 一 个 整体 来 理解 。 关 注 全 貌 , 比 只 注意 到 局 部 更 容易 做 出 
准确 的 判断 。 

通常 在 实施 记录 时 ,由 于 成 本 太 高 或 者 缺少 人 力 , 人 们 不 大 可 能 记录 下 一 切 ,而 是 只 
能 获取 零碎 的 信息 ,然后 寻找 其 中 的 模式 和 关联 ,和 赁 经 验 猜 测 数据 所 表达 的 含义 ,数据 是 
对 现实 世界 的 简化 和 抽象 表达 。 当 你 可 视 化 数据 的 时 候 , 其 实 是 在 将 对 现实 世界 的 抽象 
表达 可 视 化 ,或 至 少 是 将 它 的 一 些 细微 方面 可 视 化 。 可 视 化 能 帮助 你 从 一 个 个 独立 的 数 
据点 中 解脱 出 来 , 换 一 个 不 同 的 角度 去 探索 它们 。 

数据 和 它 所 代表 的 事物 之 间 的 关联 既是 把 数据 可 视 化 的 关键 ,也 是 全 面 分 析 数 据 的 
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关键 ,同样 还 是 深层 次 理解 数据 的 关键 。 计 算 机 可 以 把 数字 批量 转换 成 不 同 的 形状 和 颜 
色 ,但 是 你 必须 建立 数据 和 现实 世界 的 联系 ,以 便 使 用 图 表 的 人 能 够 从 中 得 到 有 价值 的 信 
息 。 数 据 会 因 其 可 变性 和 不 确定 性 而 变 得 复杂 ,但 放 和 人 一 个 合适 的 背景 信息 中 ,就 会 变 得 
容易 理解 了 。 


2.1.2 数据 的 可 变性 


德国 物理 学 家 兼 业余 摄影 师 克 里 斯 蒂 安 。 克 维 塞 克 经 常 晚 上 带 着 相机 到 小 镇 的 森林 
里 ,用 长 时 间 曝 光 摄 影 ,抓拍 曹 火 虫 在 树丛 中 飞舞 的 情景 。 这 种 昆虫 特别 小 ,在 白天 几乎 
看 不 见 , 但 是 在 晚上 ,除了 树林 里 ,又 很 难 在 别 的 地 方 看 到 。 

虽然 对 观察 者 来 说 , 董 火 虫 飞行 中 的 每 个 时 刻 都 像 是 空间 中 随机 的 点 ,但 克 维 塞 克 的 
照片 中 还 是 出 现 了 一 个 模式 。 如 图 2-4 所 示 , 看 上 去 萤火虫 们 好 像 沿 着 小 径 , 环 绕 着 大 
树 , 朝 既定 的 方向 飞舞 。 





图 2-4 萤火虫 之 路 


http://quit007. deviantart. com/) 


然而 ,这 些 依然 是 随机 的 。 下 一 次 你 可 以 根据 这 条 飞行 路 线 图 猜测 萤火虫 会 往 哪儿 
飞 吗 ? 一 只 萤火虫 随时 上 下 左右 地 飞 蹄 ,这 种 变化 使 得 莹 火 虫 的 每 次 飞行 都 是 独一无二 
的 。 也 正 因为 如 此 ,观察 萤火虫 才 那 么 有 趣 , 拍 出 来 的 照片 才 那 么 漂亮 。 你 关心 的 是 曹 火 
虫 飞行 的 路 径 , 而 它们 的 起 点 、 终 点 和 平均 位 置 并 没有 那么 重要 。 

从 这 些 数据 中 ,我 们 可 以 发 现 一 些 模 式 、 趋 势 和 周期 ,但 从 A 点 到 B 点 往往 都 不 是 一 
条 平滑 的 线路 (实际 上 ,几乎 从 来 都 不 是 )。 总 数 、 平 均值 和 人 聚合 测量 可 能 很 有 趣 , 但 它们 
都 只 揭示 了 冰山 一 角 而 已 。 数 据 中 的 波动 才 是 最 有 趣 、 最 重要 的 部 分 。 

我 们 以 美国 国家 公路 交通 安全 管理 局 发 布 的 公路 交通 事故 数据 为 例 ,来 了 解数 据 的 
可 变性 。 

从 2001 年 到 2010 年 ,根据 美国 国家 公路 交通 安全 管理 局 发 布 的 数据 ,全 美 共 发 生 了 
363 839 起 致命 的 公路 交通 事故 。 这 个 总 数 代表 着 那 部 分 逝去 的 生命 ,图 2-5 把 所 有 注意 
力 放 在 这 个 数字 上 ,能 让 你 深思 ,甚至 反省 自己 的 一 生 。 

然而 ,除了 安全 驾驶 之 外 ,从 这 个 数据 中 你 还 能 学 到 什么 呢 ? 美国 国家 公路 交通 安全 
管理 局 提供 的 数据 具体 到 了 每 一 起 事故 及 其 发 生 的 时 间 和 地 点 ,我 们 可 以 从 中 了 解 到 更 
多 的 信息 。 
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如 果 在 地 图 中 画 出 2001 一 2010 年 间 全 美国 发 生 的 每 一 起 致命 的 交通 事故 ,用 一 个 点 
代表 一 起 事故 ,就 可 以 看 到 事故 多 集中 发 生 在 大 城市 和 高 速 公 路 主干 道上 ,而 人 烟 稀少 的 
地 方 和 道路 几乎 没有 事故 发 生 过 。 这 样 ,这 幅 图 除了 告诉 我 们 对 交通 事故 不 能 掉以轻心 
之 外 ,还 告诉 了 我 们 关于 美国 公路 网 络 的 情况 。 

观察 这 些 年 里 发 生 的 交通 事故 ,人 们 会 把 关注 焦点 切换 到 这 些 具 体 的 事故 上 。 图 2-6 
显示 了 每 年 发 生 的 交通 事故 数 , 所 表达 的 内 容 与 简单 告诉 你 一 个 总 数 完 全 不 同 。 虽 然 每 
年 仍 会 发 生成 千 上 万 起 交通 事故 ,但 通过 观察 可 以 看 到 ,2006 年 到 2010 年 间 事故 呈 显 著 
下 降 趋势 。 
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从 图 2-7 中 可 以 看 出 ,交通 事故 发 生 的 季节 性 周期 很 明显 。 夏 季 是 事故 多 发 期 ,因为 
此 时 外 出 旅游 的 人 较 多 。 而 在 冬季 ,开车 出 门 旅行 的 人 相对 较 少 ,事故 就 会 少 很 多 。 每 年 
都 是 如 此 。 同 时 ,还 可 以 看 到 2006 年 到 2010 年 旦 下 降 趋势 。 





图 2-7 月 度 致命 交通 事故 数 


如 果 比 较 那些 年 的 具体 月 份 , 还 有 一 些 变化 。 例 如 ,在 2001 年 ,8 月 份 的 事故 最 多 ， 

9 月 份 相 对 回落 。 从 2002 年 到 2004 年 每 年 都 是 这 样 。 从 2005 年 到 2007 年 ,每 年 7 月 份 的 

有 故 最 多 。 从 2008 年 到 2010 年 又 变 成 了 8 月 份 。 另 一 方面 ,因为 每 年 2 月 份 的 天 数 最 少 ， 
帮 故 数 也 就 最 少 :只 有 2008 年 例外 。 因 此 :这 里 存在 着 不 同 季节 的 变化 和 季节 内 的 变化 。 

我 们 还 可 以 更 加 详细 地 观察 每 日 的 交通 事故 数 ,例如 看 出 高 峰 和 低谷 模式 ,可 以 看 出 

周 循环 周期 ,就 是 周末 比 周 中 事故 多 ,每 周 的 高 峰 日 在 周 五 、 周 六 和 周 日 间 的 波动 。 可 以 
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继续 增加 数据 的 粒度 , 即 观察 每 小 时 的 数据 。 

重要 的 是 ,查看 这 些 数据 比 查看 平均 数 . 中 位 数 和 总 数 更 有 价值 ,那些 测量 值 只 是 告 
诉 了 你 一 小 部 分 信息 。 大 多 数 时 候 , 总 数 或 数值 只 是 告诉 了 你 分 布 的 中 间 在 哪里 ,而 未 能 
显示 出 你 应 该 关注 的 细节 。 

一 个 独立 的 离 群 值 可 能 是 需要 修正 或 特别 注意 的 。 也 许 在 你 的 体系 中 随 着 时 间 推 移 发 
生 的 变化 预示 有 好 事 ( 或 坏事 ) 将 要 发 生 。 周 期 性 或 规律 性 的 事件 可 以 帮助 你 为 将 来 做 好 准 
备 ,但 面 对 那 么 多 的 变化 , 它 往往 就 失效 了 ,这 时 应 该 退回 到 整体 和 分 布 的 粒度 来 进行 观察 。 


2.1.3 数据 的 不 确定 性 


通常 ,大 部 分 数据 都 是 估算 的 ,并 不 精确 。 分 析 师 会 研究 一 个 样本 ,并 据 此 猜测 整体 
的 情况 。 你 会 基于 自己 的 知识 和 见闻 来 猜测 ,即使 大 多 数 时 候 你 确定 猜测 是 正确 的 ,但 仍 
然 存 在 着 不 确定 性 。 例 如 ,笔记 本 电脑 上 的 电池 寿命 估计 会 按 小 时 增 量 跳动 ,地 铁 预 告 说 
下 一 班车 将 会 在 10 分 钟 内 到 达 , 但 实际 上 是 11 分 钟 , 或 者 预计 在 周一 送 达 的 一 份 快 件 往 
往 周 三 才 到 。 

如 果 你 的 数据 是 一 系列 平均 数 和 中 位 数 , 或 者 是 基于 一 个 样本 群体 的 一 些 估算 ,就 应 
该 时 时 考虑 其 存在 的 不 确定 性 。 当 人 们 基于 类 似 全 国人 口 或 世界 人 口 的 预测 数 做 影响 广 
泛 的 重大 决定 时 ,这 一 点 尤为 重要 ,因为 一 个 很 小 的 误差 可 能 会 导致 巨大 的 差异 。 

换个 角度 ,想象 一 下 你 有 一 镑 彩虹 糖 ,你 想 猜 狂 饶 子 里 每 种 颜色 的 彩虹 糖 各 有 多 少 
晒 。 如 果 把 一 饶 彩 虹 糖 统统 倒 在 桌子 上 ,一 颗 颗 数 过 去 ,就 不 用 估算 了 ,你 已 经 得 到 了 总 
数 。 但 是 你 只 能 抓 一 把 ,然后 基于 手 里 的 彩虹 糖 推 测 整 饶 的 情况 。 这 一 把 越 大 估计 值 就 
越 接 近 整 饶 的 情况 ,也 就 越 容易 猜测 。 相 反 , 如 果 只 能 拿 一 颗 彩虹 糖 , 那 你 几乎 就 无 法 推 
测 饶 子 里 的 情况 。 

只 拿 一 颗 彩 虹 糖 ,误差 会 很 大 ;而 拿 一 大 把 彩虹 糖 ,误差 会 小 很 多 ;如 果 把 整 铅 都 数 一 
遍 , 误 差 就 是 零 。 当 有 数 百 万 个 彩虹 糖 装 在 上 千 个 大 小 不 同 的 饶 子 里 时 ,分 布 各 不 相同 ， 
每 一 把 的 大 小 也 不 一 样 ,估算 就 会 变 得 更 复杂 了 。 接 下 来 ,把 彩虹 糖 换 成 人 ,把 饶 子 换 成 
城 .镇 和 县 ,把 那 一 把 彩虹 糖 换 成 随机 分 布 的 调查 .误差 的 含义 就 有 分 量 多 了 。 

如 果 不 考虑 数据 的 真实 含义 ,很 容易 产生 误解 .要 始终 考虑 到 不 确定 性 和 可 变性 。 这 
也 就 到 了 背景 信息 发 挥 作 用 的 时 候 了 。 


2.1.4 数据 所 依存 的 背景 信息 


仰望 夜空 , 满 天 繁 星 看 上 去 就 像 平面 上 的 一 个 个 点 (图 2-8) 。 你 感觉 不 到 视觉 深度 ， 
会 觉得 星星 都 离 你 一 样 远 ,很 容易 就 能 把 星空 直接 搬 到 纸 面 上 ,于 是 星座 也 就 不 难 想象 
了 ,把 一 个 个 点 连接 起 来 即 可 。 然 而 ,实际 上 不 同 的 星星 与 你 的 距离 可 能 相差 许多 光 年 。 
假如 你 能 飞 得 比 星星 还 远 ,星座 看 起 来 又 会 是 什么 样子 呢 ? 

如 果 切 换 到 显示 实际 距离 的 模式 ,星星 的 位 置 转移 了 ,原先 容易 辨别 的 星座 几乎 认 不 出 
了 。 从 新 的 视角 出 发 ,数据 看 起 来 就 不 同 了 ,这 就 是 背景 信息 的 作用 。 背 景 信息 可 以 完全 改 
变 你 对 某 一 个 数据 集 的 看 法 , 它 能 帮助 你 确定 数据 代表 着 什么 以 及 如 何 解 释 。 在 确切 了 解 
数据 的 含义 之 后 ,你 的 理解 会 帮 你 找 出 有 趣 的 信息 ,从 而 带 来 有 价值 的 可 视 化 效果 。 


为 数据 可 锦 化 





使 用 数据 而 不 了 解除 数值 本 身 之 外 的 任何 信息 ,就 好 比 拿 断 章 取 义 的 片段 作为 文章 
的 主要 论点 引用 一 样 。 这 样 做 或 许 没 有 问题 ,但 却 可 能 完全 误解 说 话 人 的 意思 。 你 必须 
首先 了 解 何人 、 如 何 、 何 事 、 何 时 、 何 地 以 及 何 因 , 即 元 数据 ,或 者 说 关于 数据 的 数据 ,然后 
才能 了 解数 据 的 本 质 是 什么 。 

何人 (Cwho):“ 谁 收集 了 数据 "和 "数据 是 关于 谁 的 "同样 重要 。 

如 何 (how): 大 致 了 解 怎样 获取 你 感 兴趣 的 数据 。 如 果 数 据 是 你 收集 的 , 那 一 切 都 
好 ,但 如 果 数 据 只 是 从 网 上 获取 到 的 ,这 样 ,你 不 需要 知道 每 种 数据 集 背 后 精确 的 统计 模 
型 ,但 要 小 心 小 样本 .样本 小 ,误差 率 就 高 ,也 要 小 心 不 合 适 的 假设 .例如 包含 不 一 致 或 不 
相关 信息 的 指数 或 排名 等 。 

何事 (what) : 你 还 要 知道 自己 的 数据 是 关于 什么 的 ,你 应 该 知道 围绕 在 数字 周围 的 
信息 是 什么 。 你 可 以 跟 学 科 专 家 交流 ,阅读 论文 及 相关 文件 。 

何 时 (when) : 数据 大 都 以 某 种 方式 与 时 间 关 联 。 数 据 可 能 是 一 个 时 间 序 列 , 或 者 是 
特定 时 期 的 一 组 快照 。 不 论 是 哪 一 种 ,你 都 必须 清楚 知道 数据 是 什么 时 候 采 集 的 。 由 于 
只 能 得 到 旧 数 据 , 于 是 很 多 人 便 把 旧 数 据 当成 现在 的 对 付 一 下 ,这 是 一 种 常见 的 错误 。 事 
在 变 , 人 在 变 , 地 点 也 在 变 ,数据 自然 也 会 变 。 

何 地 (where) : 正如 事情 会 随 着 时 间 变 化 ,它们 也 会 随 着 城市 .地 区 和 国家 的 不 同 而 变 
化 ,例如 ,不 要 将 来 自 少 数 几 个 国家 的 数据 推 及 整个 世界 。 同 样 的 道理 也 适用 于 数字 定位 。 
来 自 推 特 或 Facebook 之 类 网 站 的 数据 能 够 概括 网 站 用 户 的 行为 ,但 未 必 适 用 于 物理 世界 。 

为 何 (why): 最 后 ,你 必须 了 解 收集 数据 的 原因 ,通常 这 是 为 了 检查 数据 是 否 存在 偏 
颇 。 有 时 人 们 收集 甚至 捏造 数据 只 是 为 了 应 付 某 项 议程 ,应 当 警 惕 这 种 情况 。 

首要 任务 是 竭尽 所 能 地 了 解 自己 的 数据 .这 样 ,数据 分 析 和 可 视 化 会 因此 而 增色 。 可 
视 化 通常 被 认为 是 一 种 图 形 设 计 或 破解 计算 机 科学 问题 的 练习 ,但 是 最 好 的 作品 往往 来 
源 于 数据 。 要 可 视 化 数据 ,你 必须 理解 数据 是 什么 , 它 代 表 了 现实 世界 中 的 什么 ,以 及 你 
应 该 在 什么 样 的 背景 信息 中 解释 它 。 
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在 不 同 的 粒度 上 ,数据 会 呈现 出 不 同 的 形状 和 大 小 ,并 带 有 不 确定 性 ,这 意味 着 总 数 、 
平均 数 和 中 位 数 只 是 数据 点 的 一 小 部 分 。 数 据 是 曲折 的 、 旋 转 的 ,也 是 波动 的 \ 个 性 化 的 ， 
甚至 是 富有 诗意 的 。 因 此 ,你 可 以 看 到 多 种 形式 的 可 视 化 数据 。 


2.1.5 挑战 图 像 的 多 变性 


麻 省 理工 学 院 和 哈佛 大 学 的 科学 家 们 在 他 们 所 著 的 一 篇 (为 什么 现实 生活 中 识别 可 
视 物 体 这 么 困难 ?》 的 论文 中 说 道 :“ 人 们 可 以 轻松 识别 可 视 物 体 ,这 种 轻松 正 是 计算 机 识 
别 的 难处 。 主 要 挑战 就 是 图 像 的 多 变性 一 一 例如 物体 的 位 置 、 大 小 、 方 位 、 姿 势 、 亮 度 等 ， 
任何 一 个 物体 都 可 以 在 视网膜 上 投射 下 无 数 个 不 同 的 图 像 .” 简 单 说 来 ,图 像 变化 多 端 , 因 
此 很 难 分 辨 不 同 的 图 片 是 否 包 含 了 相同 的 人 或 物 。 而 且 , 图 案 识 别 也 更 加 困难 。 尽 管 要 
在 一 个 句子 中 找 出 “总 统 ” 这 个 单词 很 容易 ,在 上 百 万 个 句子 中 找 出 它 来 也 相对 简单 ,但 要 
在 图 片 中 找 出 拥有 “总 统 " 这 个 头衔 的 人 却 困难 重重 。 

让 某 个 人 描述 一 张 图 片 的 特征 很 容易 ,但 要 描述 上 百 万 张 图 片 该 怎么 办 呢 ? 为 了 解 
决 图 片 特征 问题 , 像 亚马逊 和 Facebook 这 样 的 公司 开始 向 众 包 市 场 了 ,如 oDesk 平台 和 
亚马逊 土耳其 机 器 人 寻求 帮助 。 在 这 些 市 场 中 ,满足 特定 条 件 的 版 主 在 通过 了 某 项 测 
试 之 后 便 有 权 使 用 图 片 ,并 对 这 些 图 片 进行 描绘 和 过 滤 。 如 今 的 计算 机 比较 擅长 帮 我 们 
制作 可 视 化 效果 。 而 在 将 来 , 随 着 像 谷 歌 眼 镜 这 样 的 产品 不 断 演变 ,它们 能 更 好 地 帮 我 们 
理解 实时 的 可 视 化 信息 。 


2.1.6 打造 最 好 的 可 视 化 效果 


当然 存在 计算 机 不 需要 人 为 干涉 就 能 单独 处 理 数据 的 例子 。 例 如 , 当 要 处 理 数 十 亿 
条 搜索 查询 的 时 候 , 要 想 人 为 地 找 出 与 查询 结果 相 匹 配 的 文本 广告 是 根本 不 可 能 的 。 同 
样 ,计算 机 系统 非常 善于 自动 定价 ,并 在 百 万 多 个 交易 中 快速 判断 出 哪些 具有 欺骗 性 。 

但 是 ,人 类 可 以 根据 数据 做 出 更 好 的 决策 。 事 实 上 ,我 们 拥有 的 数据 越 多 ,从 数据 中 
提取 出 具有 实践 意义 的 见解 就 显得 越发 重要 。 可 视 化 和 数据 是 相伴 而 生 的 ,将 这 些 数据 
可 视 化 ,可 能 是 指导 我 们 行动 的 最 强大 的 机 制 之 一 。 

可 视 化 可 以 将 事实 融 人 数据, 并 引起 情感 反应 , 它 可 以 将 大 量 数据 压缩 成 便于 使 用 的 
知识 。 因 此 ,可视化 不 仅 是 一 种 传递 大 量 信息 的 有 效 途 径 , 它 还 和 大 脑 直接 联系 在 一 起 ， 
并 能 触动 情感 ,引起 化 学 反应 。 可 视 化 可 能 是 传递 数据 信息 最 有 效 的 方法 之 一 。 人 研究 表 
明 ,不仅 可 视 化 本 身 很 重要 , 何 时 、 何 地 以 何 种 形式 晨 现 对 可 视 化 来 说 也 至 关 重 要 。 

通过 设置 正确 的 场景 ,选择 恰当 的 颜色 甚至 选择 一 天 中 合适 的 时 间 . 可 视 化 可 以 更 有 效 
地 传达 隐藏 在 大 量 数据 中 的 真知 灼 见 。 科 学 证 据 证 明了 在 传递 信息 时 环境 和 传输 的 重 








四 众 包 (crowdsourcing) 指 的 是 一 个 公司 或 机 构 把 过 去 由 员工 执行 的 工作 任务 ,以 自由 自愿 的 形式 外 包 给 非特 
定 的 (而 且 通常 是 大 型 的 ) 大 众 网 络 的 做 法 。 众 包 的 任务 通常 是 由 个 人 来 承担 ,但 如 果 涉 及 到 需要 多 人 协作 完成 的 任 
务 ,也 有 可 能 以 依靠 开源 的 个 体 生产 的 形式 出 现 。 众 包 植 根 于 一 个 平等 主义 原则 :每 个 人 都 拥有 对 别人 有 价值 的 知识 
或 才华 。 众 包 作为 桥梁 将 “我 "和 “他 人 ”联系 起 来 。 

加 亚 马 避 土耳其 机 器 人 (Amazon Mechanical Turk) 是 一 个 Web 服务 应 用 程序 接口 (APD ,开发 商 通 过 它 将 人 
的 智能 与 远程 过 程 调用 (RPC) 整 合 ,用 来 完成 计算 机 很 难 完成 但 人 工 智 能 容易 执行 的 任务 ,如 写 产 品 描述 等 。 
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将 信息 可 视 化 能 有 效 地 抓 住人 们 的 注意 力 。 有 的 信息 如 果 通 过 单纯 的 数字 和 文字 来 
传达 。 可 能 需要 花费 数 分 钟 甚至 几 小 时 ,甚至 可 能 无 法 传达 。 但 是 通过 颜色 布局、 标记 
和 其 他 元 素 的 融合 ,图 形 却 能 够 在 几 秒 钟 之 内 就 把 这 些 信息 传达 给 我 们 。 

2.2.1 地 图 传递 信息 

假设 你 是 第 一 次 来 到 华盛顿 ,你 很 兴奋 ,想到 处 跑 跑 ,参观 白宫 和 各 处 的 纪念 碑 、 博 物 
馆 , 为 此 ,你 需要 利用 当地 的 交通 系统 一 一 地 铁 。 这 看 上 去 挺 简单 ,但 如 果 你 没有 地 图 ,不知 
道 怎 么 走 ,那么 即使 遇 上 个 把 好 心 人 热情 指点 ,要 弄 清 楚 搭 哪 条 线路 ,在 哪个 站 上 车 .下 车 ， 
这 简直 就 是 一 场 疆 梦 。 不 过 ,幸运 的 是 ,华盛顿 地 铁 图 (图 2-9) 可 以 用 来 传达 这 些 数据 信息 。 
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图 2-9 华盛顿 地 铁 图 
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地 图 上 每 条 线路 的 所 有 站 点 都 是 按照 顺序 用 不 同 颜色 标记 出 来 的 ,你 还 可 以 在 上 面 
看 到 线路 交叉 的 站 点 。 这 样 一 来 ,要 知道 在 哪里 换 乘 就 很 容易 了 。 可 以 说 突然 之 间 , 弄 清 
楚 如 何 搭 乘 地 铁 变 成 了 轻而易举 的 事情 。 地 铁 图 呈献 给 你 的 不 仅 是 数据 信息 ,更 是 清晰 
的 认 知 。 

你 不 仅 知 道 了 该 搭乘 哪 条 线路 ,还 大 概 知道 了 到 达 目 的 地 需要 花 多 长 时 间 。 无 须 多 
想 , 你 就 能 知道 到 达 目 的 地 有 几 站 ,每 个 站 之 间 大 概 需 要 几 分 钟 。 除 此 之 外 ,地 铁 图 上 的 
路 线 不 仅 标 注 了 名 字 或 终点 站 ,还 用 了 不 用 的 颜色 一 一 红 、 黄 、 蓝 、 绿 、 梅 来 帮助 你 辨认 。 
这 样 一 来 ,不 管 是 在 地 图 上 还 是 地 铁 外 的 墙壁 上 ,只 要 你 想 查找 地 铁 线路 ,都 能 通过 颜色 
快速 辨别 。 

通过 仔细 阅读 华盛顿 地 铁 图 , 理 清 了 头绪 ,你 发 现 其 实 华盛顿 特区 只 有 86 个 地 铁 站 。 
日 本 东京 地 铁 系 统 包 括 东京 地 铁 公 司 (Tokyo Metro) 和 都 营地 铁 公 司 (the Toei) 两 大 地 
铁 运营 系统 ,一 共有 274 个 站 。 算 上 东京 更 大 片区 的 所 有 铁路 系统 ,东京 一 共有 882 个 车 
站 (图 2-10)。 要 是 没有 地 图 的 话 , 人 们 将 很 难 了 解 这 么 多 的 站 台 信 息 。 
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图 2-10 东京 地 铁 图 


2.2.2 数据 与 走势 


我 们 在 使 用 电子 表格 软件 处 理 数据 时 会 发 现 ,要 从 填 满 数字 的 单元 格 中 发 现 走势 是 
困难 的 ,这 就 是 诸如 微软 电子 表格 (Microsoft Excel) 这 类 软件 内 置 图 表 生 成 功能 的 原因 
之 一 。 一般 来 说 ,我 们 在 看 一 个 折线 图 、 饼 状 图 或 条 形 图 的 时 候 , 更 容易 发 现 事物 的 变化 
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| 走势 (图 2-11)。 
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图 2-11 美国 2015 年 7 月 非 农 就 业 人 口 走势 


人 们 在 制定 决策 的 时 候 了 解 事物 的 变化 走势 至 关 重 要 。 不 管 是 讨论 销售 数据 还 是 健 
康 数据 ,一 个 简单 的 数据 点 通常 不 足以 告诉 我 们 事情 的 整个 变化 走势 。 

投资 者 常常 要 试 着 评估 一 个 公司 的 业绩 ,一 种 方法 就 是 及 时 查看 公司 在 某 一 特定 
时 刻 的 数据 。 比 方 说 ,管理 团队 在 评估 某 一 特定 季度 的 销售 业绩 和 利润 时 , 若 没 有 将 
之 前 儿 个 季度 的 情况 考虑 进去 的 话 , 他 们 可 能 会 总 结 说 公司 运营 状况 良好 。 但 实际 
上 ,投资 者 没有 从 数据 中 看 出 公司 每 个 季度 的 业绩 增幅 都 在 减少 。 表面 上 看 公司 的 销 
售 业绩 和 利润 似乎 还 不 错 ,而 事实 上 如 果 不 想 办 法 来 增加 销量 ,公司 甚至 可 能 很 快 就 
会 走向 破产 。 

管理 者 或 投资 者 在 了 解 公司 业务 发 展 趋势 的 时 候 , 内 部 环境 信息 是 重要 指标 之 一 。 
管理 者 和 投资 者 同时 也 需要 了 解 外 部 环境 ,因为 外 部 环境 能 让 他 们 了 解 自己 的 公司 相对 
于 其 他 公司 运营 情况 如 何 。 

在 不 了 解 公司 外 部 运营 环境 时 ,如 果 某 个 季度 销售 业绩 下 滑 , 管 理 者 就 有 可 能 会 错误 
地 认为 公司 的 运营 情况 不 好 。 可 事实 上 ,销售 业绩 下 滑 的 原因 可 能 是 由 大 的 行业 问题 引 
起 的 ,例如 房地产 行业 受 房屋 修建 量 减 少 的 影响 .航空 业 受 出 行 减少 的 影响 等 。 但 是 , 即 
使 管理 者 了 解 了 内 部 环境 和 外 部 环境 ,但 要 想 仅 通过 抽象 的 数字 来 看 出 端倪 还 是 很 困难 
的 ,而 图 形 可 以 帮助 他 们 解决 这 一 问题 。 

大 卫 ， 麦克 坎 德 莱 斯 说 :“ 可 视 化 是 压缩 知识 的 一 种 方式 ”减少 数据 量 是 一 种 压缩 
方式 ,如 采用 速记 、 简 写 的 方式 来 表示 一 个 词 或 者 一 组 词 。 但 是 ,数据 经 过 压缩 之 后 ,虽然 
更 容易 存储 , 却 让 人 难以 理解 。 然 而 ,图 片 不 仅 可 以 容纳 大 量 信息 ,还 是 一 种 便于 理解 的 
表现 方式 。 在 大 数据 里 ,这 样 的 图 片 就 叫做 “可 视 化 ”。 

地 铁 图 、. 饼 状 图 和 条 形 图 都 是 可 视 化 的 表现 方式 。 乍 一 看 ,可视化 似乎 很 简单 。 但 由 
于 种 种 原因 ,要 理解 起 来 并 不 容易 。 首 先 , 它 很 难 满足 人 们 希望 将 所 有 数据 相互 衔接 并 出 
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现在 同一 个 地 方 的 愿望 。 

其 次 ,内 部 环境 和 外 部 环境 的 数据 信息 可 能 存储 在 两 个 不 同 的 地 方 。 行 业 数据 可 能 
存储 在 市 场 调查 报告 之 中 ,而 公司 的 具体 销售 数据 则 存储 在 公司 的 数据 库 中 。 而 且 , 这 两 
种 数据 的 存储 模式 也 有 细微 的 差别 。 公 司 的 销售 数据 可 能 是 按 天 更 新 存储 的 ,而 可 用 的 
行业 数据 可 能 只 有 季度 数据 。 

最 后 ,数据 信息 不 统一 的 表达 方式 也 使 我 们 难以 理解 数据 真正 想 传达 的 信息 。 但 是 ， 
通过 获取 所 有 这 些 数据 信息 ,并 将 之 绘制 成 图 表 , 数 据 就 不 再 是 简单 的 数据 了 , 它 变 成 了 
知识 。 可 视 化 是 一 种 压缩 知识 的 形式 ,因为 看 似 简单 的 图 片 却 包含 了 大 量 结构 化 或 非 结 
构 化 的 数据 信息 。 它 用 不 同 的 线条 、 颜 色 将 这 些 信息 进行 压缩 ,然后 快速 有 效 地 传达 出 
数据 表示 的 含义 。 


2.2.3 视觉 信息 的 科学 解释 


在 数据 可 视 化 领域 ,爱德华 塔 夫 特 被 洽 为 "数据 界 的 列 奥 纳 多 。 达 。 芬 奇 "。 他 的 
一 大 贡献 就 是 : 聚焦 于 将 每 一 个 数据 都 做 成 图 示 物 一 一 无 一 例外 。 塔 夫 特 的 信息 图 形 不 
仅 能 传达 信息 ,甚至 被 很 多 人 看 作 是 艺术 品 。 塔 夫 特 指出 ,可 视 化 不 仅 能 作为 商业 工具 发 
挥 作用 ,还 能 以 一 种 视觉 上 引人入胜 的 方式 传达 数据 信息 。 

通常 情况 下 ,人 们 的 视觉 能 吸纳 多 少 信息 呢 ? 根据 美国 宾夕法尼亚 大 学 医学 院 的 研 
究 人 员 估 计 , 人 类 视网膜 “视觉 输入 (信息 ?的 速度 可 以 和 以 太 网 的 传输 速度 相 媲美 ”。 在 
研究 中 ,研究 者 将 一 只 取 自 豚鼠 的 完好 视网膜 和 一 台 叫 做 “多 电极 阵列 ”的 设备 连接 起 来 ， 
该 设备 可 以 测量 神经 节 细 胞 中 的 电 脉冲 峰值 。 神 经 节 细胞 将 信息 从 视网膜 传达 到 大 脑 。 
基于 这 一 研究 ,科学 家 们 能 够 估算 出 所 有 神经 节 细胞 传递 信息 的 速度 。 其 中 一 只 豚鼠 视 
网 膜 含有 大 概 1 00 000 个 神经 节 细 胞 ,然后 ,相应 地 ,科学 家 们 就 能 够 计算 出 人 类 视网膜 
中 的 细胞 每 秒 能 传递 多 少数 据 。 人 类 视网膜 中 大 约 包含 1 000 000 个 神经 节 细 胞 , 算 上 所 
有 的 细胞 ,人 类 视网膜 能 以 大 约 每 秒 10 兆 的 速度 传达 信息 。 

丹麦 的 著名 科学 作家 陶 。 诺 瑞 钱 德 证 明了 人 们 通过 视 党 接收 的 信息 比 其 他 任何 一 种 
感官 都 多 。 如 果 人 们 通过 视觉 接收 信息 的 速度 和 计算 机 网 络 相 当 , 那 么 通过 触觉 接收 信 
息 的 速度 就 只 有 它 的 1/10。 人 们 的 嗅觉 和 听觉 接收 信息 的 速度 更 慢 , 大 约 是 触觉 接收 速 
度 的 1/10。 同 样 我们 通过 味蕾 接收 信息 的 速度 也 很 慢 。 

换 句 话说 ,我 们 通过 视觉 接收 信息 的 速度 比 其 他 感官 接收 信息 的 速度 快 了 10 一 100 
倍 。 因 此 ,可 视 化 能 传达 庞大 的 信息 量 也 就 容易 理解 了 。 如 果 包含 大 量 数据 的 信息 被 压 
缩 成 了 充满 知识 的 图 片 , 那 我 们 接收 这 些 信 息 的 速度 会 更 快 。 但 这 并 不 是 可 视 化 数据 表 
示 法 如 此 强大 的 唯一 原因 。 另 一 个 原因 是 我 们 喜欢 分 享 ,尤其 喜欢 分 享 图 片 。 


2.2.4 图 片 和 分 享 的 力量 


人 们 喜欢 照片 (图 片 ) 的 主要 原因 之 一 是 ,现在 拍照 很 容易 。 数 码 相 机 、 智 能 手机 和 便 
宜 的 存储 设备 使 人 们 可 以 拍摄 多 得 数 不 清 的 数码 照片 ,几乎 每 部 智能 手机 都 有 内 团 摄 像 
头 。 这 就 意味 着 不 但 可 以 随意 拍照 ,还 可 以 轻松 地 上 传 或 分 享 这 些 照片 。 这 种 轻松 、 自 在 
的 拍摄 和 分 享 图 片 的 过 程 充满 了 乐趣 和 价值 ,自然 想 要 分 享 它们 。 
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和 照片 一 样 ,如 今 制作 信息 图 也 要 比 以 前 容易 得 多 。 公 司 制 作 这 类 信息 图 的 动机 也 
多 了 。 公 司 的 营销 人 员 发 现 , 一 个 拥有 有 限 信息 资源 的 营销 人 员 该 做 些 什么 来 让 搜索 更 
加 吸引 人 呢 , 答 案 是 制作 一 张 信 息 图 。 信 息 图 可 以 吸纳 广泛 的 数据 资源 ,使 这 些 数 据 相 互 
吻合 ,其 至 编造 一 个 引人入胜 的 故事 。 博 主 和 记者 们 想方设法 地 在 自己 的 文章 中 加 入 类 
似 的 图 片 .因为 读者 喜欢 看 图 片 ,同时 也 乐于 分 享 这 些 图 片 。 

最 有 效 的 信息 图 还 是 被 不 断 重复 分 享 的 图 片 。 其 中 有 一 些 图 片 在 网 上 疯 传 ,它们 在 
社交 网 站 如 Facebook、 推 特 、 领 英 、 微 信 以 及 我 们 传统 但 实用 的 邮件 里 ,被 分 享 了 数 千 次 
其 至 上 百 万 次 。 由 于 信息 图 制作 需求 的 增加 ,帮助 制作 这 类 图 形 的 公司 和 服务 也 随 之 
增多 。 


2.2.5 公共 数据 集 


公共 数据 集 是 指 可 以 公开 获取 的 政府 或 政府 相关 部 门 经 常 搜集 的 数据 。 人 口 普 查 是 
收集 数据 的 一 种 形式 (图 2-12) ,这 些 数据 对 于 人 们 了 解 人 口 变 化 、 国 家 兴衰 以 及 战胜 婴 
儿 死 亡 率 与 其 他 流行 病 的 进程 尤为 重要 。 


































































































图 2-12 美国 人 口 密度 分 布 图 


一 直 以 来 ,很 多 著名 的 可 视 化 信息 中 所 使 用 的 公共 数据 都 是 通过 新 颖 、 吸 引 人 的 方式 
来 呈现 的 。 一 些 可 视 化 图 片 表明 ,恰当 的 图 片 可 以 非常 有 效 地 传达 信息 。 例 如 ,1854 年 
伦敦 爆发 霍乱 ,10 天 内 有 500 人 死去 ,但 比 死亡 更 加 让 人 慌 慌 的 是 “未 知 *, 人 们 不 知道 堆 
乱 的 源头 和 感染 分 布 。 只 有 流行 病 专家 约翰 “斯 诺 意识 到 ,源头 来 自 市 政 供 水 。 约 翰 在 
地 图 上 用 黑 杠 标注 死亡 案例 ,最 终 地 图 “开口 说 话 ”( 图 2-13) ,形象 地 解释 了 大 街 水 龙头 
是 传染 源 , 被 污染 的 井 水 是 霍乱 传播 的 罪魁 祸首 。 这 张 信 息 图 还 使 公众 意识 到 城市 地 下 
水 系统 的 重要 性 并 采取 切实 行动 。 
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2-13 1854 年 伦敦 爆发 赴 乱 
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很 多 信息 图 提供 的 信息 从 本 质 上 看 是 静态 的 。 通 常 制作 信息 图 需要 花费 很 长 的 时 间 
和 精力 : 它 需 要 数据 ,需要 展示 有 趣 的 故事 ,还 需要 以 图 标 将 数据 以 一 种 吸引 人 的 方式 呈 
现 出 来 。 但 是 工作 到 这 里 还 没 结 束 。 图 表 只 有 经 过 发 布 、 加 工 、 分 享 和 查看 之 后 才 具 有 真 
正 的 价值 。 当 然 , 到 那 时 ,数据 已 经 成 了 几 周 或 几 个 月 前 的 旧 数 据 了 。 那 么 ,在 展示 可 视 
化 数据 时 要 怎样 在 吸引 人 的 同时 又 保证 其 时 效 性 呢 ? 

数据 要 具有 实时 性 价值 ,必须 满足 以 下 三 个 条 件 : 

(1) 数据 本 身 必须 要 有 价值 ; 

(2) 必须 有 是 够 的 存储 空间 和 计算 机 处 理 能 力 来 存储 和 分 析 数 据 ; 

(3) 必须 要 有 一 种 巧妙 的 方法 及 时 将 数据 可 视 化 ,而 不 用 花费 几 天 或 几 周 的 时 间 。 

想 了 解数 百 万 人 如 何 看 待 实 时 性 事件 ,并 将 他 们 的 想法 以 可 视 化 的 形式 展示 出 来 的 
想法 看 似 遥 不 可 及 ,但 其 实 很 容易 达成 。 

在 过 去 几 十 年 里 ,美国 总 统 选举 过 程 中 的 投票 民意 测试 .需要 测试 者 打 电 话 或 亲自 询 
问 每 个 选民 的 意见 。 通 过 将 少数 选民 的 投票 和 统计 抽样 方法 结合 起 来 ,民意 测试 者 就 能 
预测 选举 的 结果 ,并 总 结 出 人 们 对 重要 政治 事件 的 看 法 。 但 今天 ,大 数据 正 改变 我 们 的 调 
查 方法 。 

捕捉 和 存储 数据 只 是 像 推 特 这 样 的 公司 所 面临 的 大 数据 挑战 中 的 一 部 分 。 为 了 分 析 
这 些 数据 .公司 开发 了 推 特 数据 流 (tweet stream) , 即 支持 每 秒 发 送 5000 条 或 更 多 推 文 的 
功能 。 在 特殊 时 期 ,如 总 统 选举 辩论 期 间 , 用 户 发 送 的 推 文 更 多 ,大 约 每 秒 2 万 条 。 然 后 
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公司 又 要 分 析 这 些 推 文 所 使 用 的 语言 , 找 出 通用 词汇 ,最 后 将 所 有 的 数据 以 可 视 化 的 形式 
呈现 出 来 。 

要 处 理 数量 庞大 且 具 有 时 效 性 的 数据 很 困难 ,但 并 不 是 不 可 能 。 推 特 为 大 家 熟知 的 
数据 流 人 口 配备 了 编程 接口 。 像 推 特 一 样 ,Gnip 公司 也 开始 提供 类 似 的 渠道 。 其 他 公司 
如 BrightContext, 提 供 了 实时 情感 分 析 工 具 。 在 2012 年 总 统 选举 辩论 期 间 ,《 华 盛 顿 邮 
报 》 在 观众 观看 辩论 的 时 候 使 用 BrightContext 的 实时 情感 模式 来 调查 和 绘制 情感 图 表 。 
实时 调查 公司 Topsy 将 大 约 2000 亿 条 推 文 编 人 了 索引 ,为 推 特 的 政治 索引 提供 了 被 称 
为 Twindex 的 技术 支持 。Vizzuality 公司 专门 绘制 地 理 空间 数据 ,并 为 《华尔街 日 报 》 选 
举 图 提供 技术 支持 。 

与 电话 投票 耗 时 长 且 每 场面 谈 通常 要 花费 大 约 20 美元 相 比 ,上 述 所 采用 的 实时 调查 
只 需 花 费 几 个 计算 周期 ,并 且 没 有 规模 限制 。 另 外 , 它 还 可 以 将 收集 到 的 数据 及 时 进行 可 
视 化 处 理 。 

但 信息 实时 可 视 化 并 不 只 是 在 网 上 不 停 地 展示 实时 信息 而 已 。 “谷歌 眼镜 ”( 图 2-14) 被 
《时 代 周 刊 》 称 为 2012 年 最 好 的 发 明 。“ 它 被 制 成 一 副 眼 镜 的 形状 ,增强 了 现实 感 ,使 之 
成 为 我 们 日 常生 活 的 一 部 分 。" 将 来 ,我 们 不 仅 可 以 在 计算 机 和 手机 上 看 可 视 化 呈现 的 数 
据 , 还 能 边 四 处 走动 边 设想 或 理解 这 个 物质 世界 。 





图 2-14 谷歌 眼镜 


24 数据 可 视 化 的 运用 


人 类 对 图 形 的 理解 能 力 非常 独到 ,往往 能 够 从 图 形 当 中 发 现 数据 的 一 些 规律 ,而 这 些 
规律 用 常规 的 方法 是 很 难 发 现 的 。 在 大 数据 时 代 , 数 据 量变 得 非常 大 ,而 且 非 常 繁 琐 , 要 
想 发 现 数据 中 包含 的 信息 或 者 知识 .可视化 是 最 有 效 的 途径 之 一 (图 2-15) 。 

数据 可 视 化 要 根据 数据 的 特性 ,如 时 间 信 息 和 空间 信息 等 ,找到 合适 的 可 视 化 方式 ， 
例如 图 表 (Chart)、 图 (Diagram) 和 地 图 (Map) 等 ,将 数据 直观 地 展现 出 来 ,以 帮助 人 们 理 
解数 据 , 同 时 找 出 包含 在 海量 数据 中 的 规律 或 者 信息 。 数 据 可 视 化 是 大 数据 生命 周期 管 
理 的 最 后 一 步 , 也 是 最 重要 的 一 步 。 


第 2 寅 数据 可 希 化 书生 





图 2-15 ”深圳 受 大 面积 雷电 影响 ,图 为 某 日 18 时 至 次 日 0 时 共 记 录 到 的 9119 次 闪电 


数据 可 视 化 起 源 于 图 形 学 、 计 算 机 图 形 学 、 人 工 智能 、 科 学 可 视 化 以 及 用 户 界面 等 领 
域 的 相互 促进 和 发 展 ,是 当前 计算 机 科学 的 一 个 重要 研究 方向 , 它 利用 计算 机 对 抽象 信息 
进行 直观 的 表示 ,以 利于 快速 检索 信息 和 增强 认 知 能 力 。 

数据 可 视 化 系统 并 不 是 为 了 展示 给 用 户 已 知 的 数据 之 间 的 规律 ,而 是 为 了 帮助 用 户 
通过 认 知 数据 ,有 新 的 发 现 , 发 现 这 些 数据 所 反映 的 实质 。 如 图 2-16 所 示 ,CLARITY 成 
像 技术 使 科学 家 们 不 需要 切片 就 能 够 看 穿 整个 大 脑 。 





图 2-16 ” CLARITY 成 像 技术 


斯 坦 福 大 学 生物 工程 和 精神 病 学 负责 人 Karl Deisseroth 说 :“ 以 分 子 水 平和 全 局 范 
围观 察 整个 大 脑 系 统 ,曾经 一 直 都 是 生物 学 领域 一 个 无 法 实现 的 重大 目标 ,” 也 就 是 说 ,用 
户 在 使 用 信息 可 视 化 系统 之 前 往往 没有 明确 的 目标 。 信 息 可 视 化 系统 在 探索 性 任务 ( 例 
如 包含 大 数据 量 信 息 ) 中 有 突出 的 表现 . 它 可 以 帮助 用 户 从 大 量 的 数据 空间 中 找到 关注 的 
信息 来 进行 详细 的 分 析 。 因 此 ,数据 可 视 化 主要 应 用 于 下 面 几 种 情况 : 

(1) 当 存 在 相似 的 底层 结构 、 相 似 的 数据 可 以 进行 归 类 时 。 

(2) 当 用 户 处 理 自己 不 熟悉 的 数据 内 容 时 。 

(3) 当 用 户 对 系统 的 认 知 有 限 ,并 且 喜 欢 用 扩展 性 的 认 知 方法 时 。 
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为 数据 可 锦 化 


(4) 当 用 户 难以 了 解 底层 信息 时 。 
(5) 当 数 据 更 适合 感知 时 。 


25 数据 可 视 化 的 挑战 


按 任务 分 类 的 数据 类 型 有 助 于 组 织 我 们 对 问题 范围 的 理解 ,但 为 了 创建 成 功 的 工具 ， 
信息 可 视 化 的 研究 人 员 仍 有 很 多 挑战 需要 去 面 对 , 这 些 挑战 如 下 。 

(1) 导入 和 清理 数据 。 决 定 如 何 组 织 输入 数据 以 获得 期 望 的 结果 , 它 所 需要 的 思考 
和 工作 经 常 比 预期 得 多 。 使 数据 有 正确 的 格式 、 滤 掉 不 正确 的 条 目 、 使 属性 值 规格 化 和 处 
理 丢 失 的 数据 也 能 够 是 繁重 的 任务 。 

(2) 把 视觉 表示 与 文本 标签 结合 在 一 起 。 视 觉 表 示 是 强 有 力 的 ,但 有 意义 的 文本 标 
签 起 到 很 重要 的 作用 。 标 签 应 该 是 可 见 的 ,不 应 遮盖 显示 或 使 用 户 困惑 。 屏 幕 提 示 和 偏 
心 标签 等 用 户 控制 的 方法 经 常 能 够 提供 帮助 。 

(3) 查找 相关 信息 。 经 常 需要 多 个 信息 源 来 做 出 有 意义 的 判断 。 专 利 律 师 想 要 看 到 
相关 的 专利 ,基因 组 学 研究 人 员 想 要 看 到 基因 簇 在 细胞 过 程 的 各 个 阶段 如 何 一 致 地 工作 
等 。 在 发 现 过 程 中 对 意义 的 追寻 需要 对 丰富 的 相关 信息 源 进行 快速 访问 ,这 需要 对 来 自 
多 个 源 的 数据 进行 整合 。 

(4) 查看 大 量 数据 。 信 息 可 视 化 的 一 般 挑 战 是 处 理 大 量 的 数据 。 很 多 创新 的 原型 仅 
能 处 理 几 千 个 条 目 ,或 者 当 处 理 数量 更 大 的 条 目 时 难以 保持 实时 交互 性 。 显 示 数 百 万 条 
目的 动态 可 视 化 证 明 ,信息 可 视 化 尚未 接近 于 达到 人 类 视觉 能 力 的 极限 ,用 户 控制 的 聚合 
机 制 将 进一步 突破 性 能 极限 。 较 大 的 显示 器 能 够 有 帮助 ,因为 额外 的 像素 使 用 户 能 够 看 
到 更 多 细节 的 同时 保持 合理 的 概览 。 

(5) 集成 数据 挖掘 。 信 息 可 视 化 和 数据 挖掘 起 源 于 两 条 独立 的 研究 路 线 。 信 息 可 视 
化 的 研究 人 员 相 信 让 用 户 的 视觉 系统 引导 他 们 形成 假设 的 重要 性 ,而 数据 挖掘 的 研究 人 
员 则 相信 能 够 依赖 统计 算法 和 机 器 学 习 来 发 现 有 趣 的 模式 。 一 些 消费 者 的 购买 模式 , 诸 
如 商品 选择 之 间 的 相关 性 ,适当 可 视 化 就 会 突显 出 来 。 然 而 ,统计 实验 有 助 于 发 现在 产品 
购买 的 顾客 需要 或 人 口 统计 的 连接 方面 的 更 微妙 趋势 。 研 究 人 员 正 在 逐渐 把 这 两 种 方法 
结合 在 一 起 。 就 其 客观 本 性 来 说 ,统计 汇总 是 有 吸引 力 的 ,但 它们 能 够 隐藏 异常 值 或 不 连 
续 性 ( 像 冰 点 或 沸点 )。 另 一 方面 ,数据 挖掘 可 能 把 用 户 指 到 数据 的 更 有 趣 部 分 ,然后 它们 
能 够 在 视觉 上 被 检查 。 

(6) 与 分 析 推理 技术 集成 。 为 了 支持 评估 .计划 和 决策 ,视觉 分 析 领 域 强调 信息 可 视 
化 与 分 析 推 理工 具 的 集成 。 业 务 与 智能 分 析 师 使 用 来 自 搜索 和 可 视 化 的 数据 和 洞察 力作 
为 支持 或 否认 有 竞争 性 的 假设 的 证 据 。 他 们 还 需要 工具 来 快速 产生 他 们 分 析 的 概要 和 与 
决策 者 交流 他 们 的 推理 ,决策 者 可 能 需要 追溯 证 据 的 起 源 。 

(7) 与 他 人 协同 。 发 现 是 一 个 复杂 的 过 程 , 它 依赖 于 知道 要 寻找 什么 、 通 过 与 他 人 协 
同 来 验证 假设 注意 异常 和 使 其 他 人 相信 发 现 的 意义 。 因 为 对 社交 过 程 的 支持 对 信息 可 
视 化 是 至 关 重 要 的 ,所 以 软件 工具 应 该 使 记录 当前 状态 、 带 注释 和 数据 把 它 发 送 给 同事 或 
张贴 到 网 站 上 更 容易 。 
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(8) 实现 普遍 可 用 性 。 当 可 视 化 工具 打算 被 公众 使 用 时 ,必须 使 该 工具 可 被 多 种 多 
样 的 用 户 使 用 而 不 管 他 们 的 生活 背景 .工作 背景 、 学 习 背 景 或 技术 背景 如 何 , 但 它 仍 是 对 
设计 人 员 的 巨大 挑战 。 

(9) 评估 。 信 息 可 视 化 系统 是 十 分 复杂 的 。 分 析 很 少 是 一 个 孤立 的 短期 过 程 ,用 户 
可 能 需要 长 期 地 从 不 同 视角 察看 相同 的 数据 。 他 们 或 许 还 能 阐述 和 回答 他 们 在 查看 可 视 
化 之 前 未 预料 会 有 的 问题 (使 得 难以 使 用 典型 的 实证 研究 技术 ) ,而 受 试 者 被 征 募 来 短期 
从 事 所 承担 的 任务 。 虽 然 最 后 发 现 能 够 产生 巨大 的 影响 ,但 它们 极 少 发 生 且 不 太 可 能 在 
研究 过 程 中 被 观察 到 。 基 于 洞察 力 的 研究 是 第 一 步 。 案 例 研究 报告 在 其 自然 环境 中 完成 
真实 任务 的 用 户 。 他 们 能 够 描述 发 现 用 户 之 间 的 协同 、 数 据 清理 的 挫折 和 数据 探索 的 兴 
奋 , 并 且 他 们 能 报告 使 用 频率 和 获得 的 收益 。 案 例 研 究 的 不 足 是 ,它们 非常 耗费 时 间 且 可 
能 不 是 可 重复 的 或 可 应 用 于 其 他 领域 。 


【延伸 阅读 】 
叹 往 人 们 几何 谈论 互联 网 思维 


时 下 ,“ 互 联网 思维 " 正 达 麦 烈 烈 地 站 履 着 各 行 各 业 的 传统 生态 。 事 实 上 , 早 在 1994 年 ， 
互联 网 时 代 的 多 数 境况 就 在 凯 文 。 凯利 (图 2-17) 的 书 《 新 经 济 , 新 规则 ) 中 被 预测 过 。 有 
人 形容 这 是 一 本 “值得 每 年 一 看 的 书 ”。Esquire 摘 取 了 书 中 每 一 章 的 要 义 , 邀 你 一 起 看 看 
近 20 年 前 互联 网 思维 的 十 大 法 则 。 





图 2-17 凯 文 .凯利 (Kevin Kelly) 


法 则 一 : 相信 集群 的 力量 。 

网 络 经 济 依赖 的 是 简易 信息 连接 成 集群 时 所 产生 的 伟大 力量 。 

单一 功能 的 元 件 , 以 适合 的 方式 联接 起 来 ,会 产生 奇妙 的 效果 。 

法 则 二 : 回报 递增 : 赢家 与 赢家 相连 。 

工业 经 济 的 规模 效应 对 经 济 来 说 是 线性 的 ,投入 低 , 产 出 低 , 投 入 高 , 产 出 也 高 ;并 且 ， 
在 工业 经 济 中 ,成 功 往往 会 自我 设 限 ,遵循 回报 递减 的 原理 。 在 网 络 经 济 中 ,成 功 是 自我 
增强 的 ,新 加 入 的 成 员 会 提升 网 络 本 身 的 价值 ,而 网 络 自身 价值 的 升 高 又 反 过 来 吸引 更 多 


大 有 财 电 加 钢 比 


的 成 员 , 从 而 形成 了 一 条 优势 的 螺旋 曲线 。 互 联网 经 济 的 价值 是 指数 级 别 的 增长 ,小 投入 
与 小 投入 之 间 相 互 增强 ,效益 和 效益 之 间 像 滚雪球 一 样 越 滚 越 大 。 更 确切 地 说 ,网 络 价值 
随 着 成 员 关系 的 激增 而 成 倍增 加 。 许 许多 多 网 络 的 代理 商 和 竞争 者 在 一 起 共同 创造 了 网 
络 的 价值 。 尽 管 回报 递增 所 产生 的 利益 会 有 相当 一 部 分 由 某 一 组 织 占 有 ,但 利益 的 价值 
却 是 存在 于 更 大 范围 的 网 络 之 中 。 

硅谷 的 发 展 与 成 长 就 是 典型 的 例子 。 像 硅谷 一 样 的 高 新 技术 园区 本 身 就 是 人 才 、 资 
源 和 机 会 紧密 联系 的 网 络 。 它 的 成 功 不 是 其 中 一 家 公司 的 成 功 ,而 是 整个 关系 网 络 的 成 
功 。 一 些 技术 人 才 调 侃 说 ,自己 在 硅谷 虽然 频频 跳槽 ,身边 拼车 的 小 伙伴 却 一 次 也 没 换 
过 。 也 有 人 说 ,他 们 一 早 醒 来 ,第 一 个 想到 的 不 是 “我 为 其 家 公司 卖命 "而 是 “我 为 整个 硅 
谷 工作 ”。 

法 则 三 : 普及 效应 。 

在 网 络 里 ,把 握 的 机 会 越 多 ,新 的 机 会 就 能 越 快 地 出 现 。 普 及 效应 的 概念 就 是 要 创造 
某 种 由 尽 可 能 多 的 系统 和 标准 来 管理 它 的 事物 。 一 个 事物 接触 的 网 越 多 , 它 的 价值 就 越 
高 。 无 论 是 一 个 发 明 、 一 家 公司 或 者 一 项 技术 , 随 着 它 参 与 的 系统 数量 呈 线 性 增加 , 它 的 
价值 呈 指 数 增加 。 

举 一 个 传统 的 例子 : 第 一 台电 报 机 的 发 明 哪怕 耗费 几 百 万 美金 ,也 是 不 值钱 的 。 但 
第 二 台 一 旦 卖 出 ,就 意味 着 一 个 信息 网 络 的 构建 。 随 着 电报 机 进入 千家 万 户 , 你 只 要 花 一 
台电 报 机 的 钱 , 就 可 以 融入 千 千 万 万 台电 报 机 所 建构 的 网 络 关系 之 中 ,这 就 是 网 络 普及 效 
应 的 价值 所 在 。 

法 则 四 : 追随 免费 之 道 。 

网 络 经 济 遵 循 一 个 悖 论 : 最 好 的 东西 越 来 越 便宜 。 其 中 的 道理 很 简单 : 只 要 消费 者 
订 制 的 基本 服务 趋 近 免 费 ,他 们 很 快 会 订 制 附加 服务 和 高 端 服务 。 

你 可 以 想象 下 面 的 过 程 普通 电话 业务 几乎 不 要 钱 。 那么 ,消费 者 的 每 个 房间 都 会 
安装 电话 线 。 然 后 ,你 的 汽车 也 会 安装 电话 线 , 接 着 使 用 移动 电话 ,再 然后 ,你 的 每 个 家 人 
都 会 使 用 移动 电话 。 然 后 ,消费 者 又 会 订 制 接听 电话 服务 .电话 转 接 . 呼 叫 等 待 . 来 电 显 
示 、 传 真 和 调制 解 调 器 。 接 下 来 ,所 有 的 电器 和 其 他 物体 都 会 联网 …… 总 之 ,“ 唯 有 慷慨 才 
能 在 网 络 中 胜出 ”。 

法 则 五 : 要 想 自 身 繁荣 . 先 培育 自身 所 在 的 网 络 。 

这 个 法 则 可 以 分 为 如 下 几 个 部 分 。 

(1) 网 络 价值 最 大 化 : 令 多 元 主体 平等 参与 网 络 ;不 要 执着 与 你 认为 的 最 优 标准 ,而 
采用 其 他 人 的 标准 来 发 挥 网 络 效应 的 杠杆 作用 。 

(2) 激活 你 的 产品 和 服务 : 无 论 什 么 时 候 做 科技 决策 ,如 果 你 选择 更 多 的 连接 .更 开 
放 的 系统 、 应 用 更 广 的 标准 ,那么 你 总 是 正确 的 。 

(3) 寻找 最 大 公约 数 : 最 有 价值 的 发 明 不 是 性 能 最 优越 的 ,而 是 那些 在 最 广泛 客户 
基础 上 性 能 最 优越 的 (性 能 与 普及 兼 优 ) 。 

(4) 利用 好 那些 根深 蒂 国 的 标准 。 在 一 些 伟 大 的 故事 中 ,公司 的 向 前 发 展 都 是 先 掌 
握 一 个 网 络 ,然后 利用 它 根深 带 固 的 标准 来 改造 一 个 已 经 存在 的 网 络 。 这 个 过 程 被 称 为 
“内 部 转化 ”。 
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(5) 重视 推广 传播 ,在 产品 推广 初期 不 要 忽视 推广 人 员 的 作用 。 

法 则 六 : 激流 勇 退 或 寻找 另 一 个 山峰 。 

经 济 学 家 迈克 尔 。 波 特 (Michael Porter) 调 查 了 10 个 国家 的 100 个 行业 后 发 现 创 新 
的 源泉 通常 都 来 自 于 “局 外 人 ”或 其 他 相对 局 外 人 一 一 一 个 行业 的 龙头 公司 进入 另 一 个 新 
的 行业 。 

在 新 经 济 中 ,外 面 的 风景 显得 更 为 重要 ,因为 完美 不 再 是 独奏 表演 。 成 功 是 一 个 相互 
依赖 的 过 程 ,包括 一 个 由 供应 商 、 顾 客 , 其 至 竞争 对 手 组 成 的 网 络 。 

在 山顶 退回 并 不 是 反对 完美 ,而 是 反对 短视 。 

(作者 还 警告 说 ,这 山头 望 向 那 山头 ,看 起 来 很 近 , 实 际 距离 却 很 远 , 有 可 能 需要 经 历 
难以 想象 的 低谷 。) 

法 则 七 : 创立 中 间 市 场 。 

山 默 的 管理 大 师 汤姆 。 彼得 斯 常 说 ,美国 CEO 时 刻 面 临 着 " 八 分 之 一 秒 的 重 梦 ”: 
“ 想 想 亚洲 、 拉 美 、 东 欧 吧 1! 那里 的 人 聪明 反应 快 、. 又 廉价 ,而 且 他 们 离 你 这 么 近 , 只 需 八 
分 之 一 秒 就 能 联系 上 !?" 八 分 之 一 秒 是 任何 信号 从 地 球 一 端 抵达 另 一 端 所 需 的 最 长 时 间 。 
这 个 玩笑 实际 上 在 说 ,距离 已 成 为 伪 命 题 , 全 球 化 趋势 势 在 必 行 。 

随 着 电子 环境 的 不 断 延 展 , 地 域 的 影响 力 减弱 ,空间 的 影响 力 增加 。 经 济 渗透 进 各 个 
网 络 媒介 ,传统 的 交易 市 场 转 换 成 为 概念 性 的 虚拟 市 场 (marketspace)。 这 种 市 场 依托 赛 
博 空间 (cyberspace) 存 在 , 它 的 优势 不 在 于 非 地 理 的 虚拟 性 ,而 是 更 多 地 根植 于 它们 无 限 
地 吸纳 连接 与 关系 的 能 力 。 网 络 经 济 推动 了 中 间 市 场 的 形成 。 网 络 中 成 员 之 间 连 接 越 
多 ,可 成 为 中 介 的 节点 就 越 多 ,网 络 中 的 任何 对 象 都 充当 了 其 他 对 象 的 中 介 。 在 中 间 市 场 
中 ,海量 的 信息 被 筛选 分类、 索引 。 

法 则 八 : 在 失衡 中 寻找 持续 性 。 

改变 意 为 快速 的 变化 ,尽管 有 时 候 是 惊人 的 。 流 变更 像 是 印度 教 中 的 湿 婆 神 , 它 是 一 
股 充满 破坏 与 新 生 的 力量 。 流 变 推 翻 既 有 事物 ,为 更 多 创新 的 诞生 提供 温床 。 这 种 动态 
或 许 会 被 看 作 复 合 再 生 , 它 源 于 混乱 的 边缘 。 

同 流 变 的 道理 一 样 ,创新 也 是 一 种 颠覆 ,永恒 的 创新 即 持续 的 颠 履 。 运 转 良好 的 网 络 
希望 达到 一 个 目标 , 那 就 是 保持 永恒 的 失衡 状态 。 

真正 的 创新 要 足够 与 众 不 同 , 同 时 具有 危险 性 。 它 可 能 差 一 点 就 被 视 为 荒唐 事 。 它 
在 灾难 的 边缘 ,但 从 不 会 越界 。 它 可 以 以 任何 形态 呈现 ,但 唯 独 不 会 是 和 谐 的 。 

在 创新 的 时 候 要 遵循 一 条 法 则 : 保留 核心 价值 ,让 其 他 部 分 随时 处 于 变动 状态 。 

法 则 九 : (对话) 关系 比 产 能 更 重要 。 

互联 网 经 济 的 核心 是 增进 联系 。 不 应 将 技术 视 为 管理 信息 ,而 应 当 将 其 视 为 关系 的 
中 介 。 现 在 ,生产 者 和 消费 者 的 角色 是 重 登 的 .所 以 有 了 产销 (prosuming) 这 个 词 。 客 户 
正在 变 成 用 户 , 购 买 产品 和 服务 的 同时 也 在 为 它们 的 改进 做 贡献 。 

对 话 是 个 理解 网 络 经 济 不 错 的 模型 。 这 种 你 来 我 往 首先 始 于 两 个 人 ,之 后 扩展 到 其 
他 人 , 随 着 对 话 变 得 愈加 多 元 和 多 样 , 它 就 会 吸引 越 来 越 多 的 人 参与 其 中 。 最 终 , 随 着 世 
界 中 越 来 越 多 的 非 生命 造物 被 连接 起 来 (例如 组 织 之 间 的 对 话 、 技 术 和 物品 意义 上 的 交流 
等 ), 对 话 的 次 数 、 时 长 和 频次 也 会 随 着 互动 的 增加 而 增加 。 对 话 这 种 互动 关系 的 基石 是 
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信任 。 

法 则 十 : 机 遇 优 于 效率 。 

效率 是 针对 机 器 人 而 言 的 ,但 机 遇 是 为 人 而 准备 的 。 每 个 连接 都 意味 着 一 个 机 遇 ,如 
果 我 们 把 世界 越 来 越 多 地 连接 到 网 络 的 节点 上 ,我 们 就 相当 于 在 这 个 神奇 的 组 合 游 戏 中 
增添 了 数 十 亿 可 用 的 新 组 件 。 可 能 性 的 数量 会 像 爆 炸 一 样 激增 。 此 外 ,网 络 能 使 已 经 抓 
住 的 机 会 和 已 经 创造 出 的 发 明 加速 传 播 ,这 些 机 会 和 发 明 被 散播 到 网 络 和 地 球 的 每 一 个 
角落 ,引发 出 更 多 建构 于 它们 之 上 的 新 的 机 遇 。 

技术 永远 无 法 根治 社会 的 弊端 与 不 公 , 技 术 只 能 为 我 们 做 一 件 事 , 就 是 捕捉 更 多 的 
机 遇 。 寻 求 机 遇 、 创 造 更 多 新 的 机 遇 , 比 优化 已 有 的 东西 ,能 使 你 收获 更 多 。 一 直 以 来 
的 商业 理念 都 是 发 现 问 题 , 然 后 去 解决 它 。 但 是 ,那些 被 发 现 了 的 问题 通常 都 是 一 些 
已 经 停止 了 运作 的 存在 ( 壁 如 目标 清晰 但 执行 不 力 , 甚 至 是 “物流 速度 慢 ? 等 琐碎 的 细 
节 )。 这 个 时 候 , 耗 费 人 力 和 时 间 去 改善 “平庸 的 不 足 ”, 会 让 你 在 竞争 激烈 的 全 球 钴 台 
失去 立足 之 地 。 

资料 来 源 : Kevin Kelly, 编 译 : 杨 奕 ,编辑 : 杜 强 ,部 分 编译 参考 了 《新 经 济 ,新 规则 ), 电 子 工 业 出 版 
社 2014 


【实验 与 思考 】 
象 豆 大 数据 可 视 化 


1. 实验 目的 


(1) 热 悉 大 数据 可 视 化 的 基本 概念 和 主要 内 容 ; 
(2) 通过 绘制 南 丁 格 尔 极 区 图 ,尝试 了 解 大 数据 可 视 化 的 设计 与 表现 技术 。 


2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


3. 实验 内 容 与 步骤 


(1) 请 结合 查阅 的 相关 文献 资料 , 简 述 什么 是 数据 可 视 化 .数据 可 视 化 系统 的 主要 目 
的 是 什么 。 


答 : 














(2) 随 着 大 数据 时 代 的 日 渐 成 熟 , 用 于 大 数据 可 视 化 分 析 的 应 用 软件 系统 正在 
不 断 涌现 、 不 断 发 展 。 在 大 数据 背景 下 ,基于 云 计算 模式 ,一 些 大 数据 可 视 化 软件 提 
供 了 基于 Web 的 应 用 软件 服务 形式 。 请 通过 网 络 搜索 ,回答 什么 是 软件 服务 的 SaaS 
模式 。 
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(3) 大 数据 魔 镜 网 站 (http://www. moojnn. com/) 是 以 Web 形式 提供 大 数据 可 视 
化 软件 应 用 服务 的 专业 网 站 ,请 通过 网 络 搜 索 , 了 解 正在 发 展 中 的 可 视 化 数据 分 析 网 
站 一 一 大 数据 魔 镜 。 

通过 浏览 了 解 ,你 对 大 数据 魔 镜 网 站 的 可 视 化 数据 分 析 能 力 的 评价 是 什么 ? 

答 : 




















(4) 未 来 ,你 可 能 通过 SaaS 服务 模式 来 获取 大 数据 及 其 可 视 化 软件 的 应 用 服务 吗 ? 
你 认为 这 种 服务 形式 有 什么 积极 或 者 消极 的 意义 ? 
答 : 




















(5) 南 丁 格 尔 极 区 图 是 数据 统计 类 信息 图 表 中 常见 到 的 一 类 图 表 形 式 , 下 面 ,我 们 来 
了 解 这 类 图 表 的 常见 绘制 方法 。 

【设计 分 析 】 

最 终 的 效果 图 如 图 2-18 所 示 。 

@ 图 表 中 包括 性 别 、 年 龄 .教育 、 收 入 等 11 个 分 类 的 对 比 信息 指标 ,每 个 指标 占用 的 
圆周 的 角度 相同 , 即 任 一 指标 的 该 区 角度 为 (360/11 二 32.723”)。 在 CorelDraw 中 ,其 表 
现 为 “角度 相同 ,半径 不 等 的 扇 区 图 ”。 

加 在 Gender、Income、Age、Education 四 个 指标 中 ,又 被 分 别 划 成 几 个 不 同 的 区 段 。 
在 CorelDraw 中 ,同一 扇 区 图 中 不 同 的 区 段 由 “角度 相同 半径 不 等 的 扇 区 图 ”依次 登 加 
而 成 。 

【绘图 步骤 】 

此 信息 图 的 绘制 ,主要 应 用 CorelDraw 软件 中 的 “旋转 ”和 “分 层 合 加 ”两 个 功能 。 
Facebook 极 区 信息 图 在 CorelDraw 中 的 具体 绘制 步骤 如 下 。 


为 数 据 可 和 摘 化 


Total users 


步骤 1: 绘制 定位 圆 环 和 背景 


步骤 2 
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图 2-18 Facebook 极 区 图 





圆 , 以 及 11 等 分 扇形 。 
依次 绘制 11 个 指标 对 应 的 不 同 长 度 的 扇 区 图 。 


步骤 4 一 6: 依次 绘制 四 个 指标 中 的 不 同 区 段 的 扇 区 图 (图 2-19) 。 
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-19 绘制 极 区 图 的 步骤 


1 一 6 


读者 也 可 尝试 用 自己 熟悉 的 其 他 作 图 软件 工具 绘制 此 图 。 
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4. 实验 总 结 














5. 实验 评价 (教师 ) 
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【导读 案例 】 
全 球 最 大 的 电子 商务 公司 


eBay(EBAY, 图 3-1) 是 全 球 最 大 的 电子 商务 公司 之 一 ,于 1995 年 9 月 4 日 由 皮 埃 
尔 。 奥 米 迪 亚 以 Auctionweb 的 名 称 创立 于 加 利 福 尼 亚 州 圣 荷 西 。1997 年 9 月 该 公司 正 
式 更 名 为 eBay。 





eBay 





图 3-1 eBay 


当时 奥 米 迪 亚 的 女 朋 友 酷 爱 Pez 糖果 盒 (图 3-2) 了 , 却 为 无 法 与 同道 中 人 交流 而 车 
恼 。 于 是 Omidyar 建立 起 一 个 拍卖 网 站 ,希望 能 帮助 女友 和 Pez 糖果 盒 爱好 者 交流 。 令 
Omidyar 没有 想到 的 是 ,eBay 非常 受 欢 迎 ,很 快 网 站 就 被 收集 Pez 糖果 使、 芭比 娃娃 等 物 
品 的 爱好 者 挤 爆 。 

如 今 eBay 已 有 1.471 亿 注册 用 户 , 有 来 自 全 球 29 个 国家 的 卖家 ,每 天 都 有 涉及 几 千 
个 分 类 的 几 百 万 件 商品 销售 ,成 为 世界 上 最 大 的 电子 集 市 。eBay 的 主要 竞争 对 手 是 亚 马 
避 \、 雅 虎 拍 卖 和 阿里 巴巴 集团 。 

eBay 和 PayPal( 全 球 化 海 淘 支 付 平台 ) 类 似 于 国内 的 淘宝 和 支付 宝 ,一 个 用 于 开店 ， 
一 个 用 于 付款 。2015 年 4 月 10 日 ,PayPal 从 eBay 分 拆 ,协议 规定 ,eBay 在 5 年 内 不 得 
推出 支付 服务 ,而 PayPal 则 不 能 为 实体 产品 开发 自主 的 在 线 交 易 平台 。 


@ Pez 糖果 公司 于 1927 年 在 奥地利 创立 ,其 产品 最 大 特色 就 是 装 糖 果 的 小 盒子 都 会 安 上 一 个 人 物 的 头像 ,具体 
人 物 五 花 八 门 ,从 超级 英雄 、 星 球 大 战 到 圣诞 老人 、 米 老鼠 …… 应 有 尽 有 , 据 统 计 每 年 仅 在 美国 一 地 Pez 糖果 的 销量 就 
超过 了 30 亿 颗 。 
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图 3-2 Pez 糖果 盒 


每 天 都 有 数 以 百 万 的 家 具 、 收 藏品 .计算 机 、 车 辆 在 eBay 上 被 刊登 贩 售 、 卖 出 。 有 些 
物品 稀有 且 珍 贵 ,然而 大 部 分 的 物品 可 能 只 是 个 满 布 灰尘 \ 看 起 来 毫 不 起 眼 的 小 玩意 。 这 
些 物 品 常 被 他 人 给 忽略 ,但 如 果 能 在 全 球 性 的 大 市 场 贩 售 , 那 么 其 身价 就 有 可 能 水 涨 船 
高 。 只 要 物品 不 违反 法 律 或 是 在 eBay 的 禁止 贩 售 清单 之 内 , 即 可 以 在 eBay 刊登 贩 售 。 
服务 及 虚拟 物品 也 在 可 贩 售 物品 的 范围 之 内 。 可 以 说 ,eBay 推翻 了 以 往 那 种 规模 较 小 的 
跳蚤 市 场 , 将 买 家 与 卖家 拉 在 一 起 ,创造 一 个 永 不 休息 的 市 场 。 大 型 的 跨国 公司 , 像 是 
IBM 会 利用 eBay 的 固定 价 或 竞价 拍卖 来 销售 他 们 的 新 产品 或 服务 。 资 料 库 的 区 域 搜寻 
使 得 运送 更 加 迅捷 便宜。 软体 工程 师 们 借 着 加 入 eBay Developers Program, 得 以 使 用 
eBay API, 创 造 许多 与 eBay 相 整 合 的 软体 。 

在 eBay 上 也 有 时 也 会 有 一 些 具 争议 性 且 违 反 道 德 标准 的 拍卖 。1999 年 时 ,有 位 仁 
兄 看 中 了 庞大 (但 却 违法 ) 的 器 官 移植 市 场 ,在 eBay 刊登 一 则 肾脏 的 拍卖 , 想 借 此 获 利 。 
在 某 些 场合 ,一 些 贩 售 人 还 是 一 个 小 镇 的 拍卖 布告 ,都 仅仅 只 是 个 笑话 。 只 要 eBay 接 获 
检举 ,这 些 拍卖 布告 就 会 立即 被 关闭 ,因为 eBay 不 允许 任何 违反 其 政策 的 拍卖 项 目 。 如 
今 ,eBay 公司 的 经 营 策略 在 于 增加 使 用 eBay 系统 的 跨国 交易 。eBay 已 经 将 领域 延伸 至 
包括 中 国 及 印度 在 内 的 国家 。 

eBay 扩张 失败 的 国家 和 地 区 是 中 国 大 陆 、 中 国 台湾 及 上 日本。 雅虎 在 日 本 经 营 的 拍卖 
业务 在 日 本 国内 已 占据 领导 地 位 ,人 迫使 eBay 锋 羽 而 归 。 而 中 国 台 湾 的 eBay 亦 敌 不 过 雅 
虎 奇 摩 拍卖 网 站 而 退出 中 国 台湾 市 场 。eBay 最 初 通过 收购 易趣 的 方式 进入 中 国 大 陆 市 
场 ,但 之 后 在 与 淘宝 的 竞争 中 落 败 ,退出 中 国 大 陆 市 场 。2015 年 4 月 15 日 ,eBay 效仿 亚 
马 进 入 驻 天 猫 国际 和 京东 全 球 购 ,京东 与 eBay 合作 的 “eBay 海外 精 选 频 道 正式 上 线 。 

对 于 线 上 拍卖 及 购物 网 站 eBay 而 言 , 下 一 个 发 展 契 机 可 能 是 可 穿戴 设备 领域 。 该 公 
司 已 经 在 内 部 组 建 了 工程 师 和 设计 师 团队 。 作 为 创新 和 新 经 济 项 目 集团 的 一 部 分 ,该 团 
队 会 专注 于 研究 把 商务 与 可 穿戴 设备 结合 的 发 展 模式 。 

时 至 今日 ,已 有 超过 620 亿美 元 巨 值 的 商品 在 eBay 卖 出 。 换 算 一 下 ,相当 于 每 秒 超 
过 2000 美元 的 销售 额 。 而 所 有 这 些 商业 活动 共同 生成 了 大 量 的 数据 一 一 每 天 生成 记录 
超过 1500 亿 条 , 某 些 日 志 数据 表 中 甚至 包括 上 万 亿 行 数 据 。 为 了 对 这 些 数据 有 所 理解 ， 
eBay 拥抱 了 大 数据 和 数据 可 视 化 ,在 这 过 程 中 ,eBay 发 展 成 为 重要 的 国际 化 可 视 化 


为 散 握 可 二 人 出 


组 织 。 

总 体 来 说 ,数据 可 视 化 一 一 尤其 是 Tableau( 一 款 著名 的 将 数据 运算 与 美观 图 表 完 美 
结合 的 商业 智能 软件 ) 一 一 促进 了 数据 在 eBay 的 民主 化 和 开放 进度 。 在 eBay, 数 据 探 
索 、 数 据 可 视 化 和 数据 分 析 并 非 可 选项 ,或 说 可 依 个 人 喜好 而 选择 使 用 ,它们 是 工作 必需 。 
eBay 的 员工 使 用 大 量 数 据 可 视 化 工具 支撑 、 理 解 和 完善 业务 一 一 个 中 原因 其 实 不 难 理 
解 。 用 这 家 公司 分 析 平 台 前 高 级 经 理 David Stone 的 话说 ,“ 你 不 可 能 站 在 eBay 的 店 中 ， 
张望 行 来 往 去 的 顾客 ,那些 对 业务 的 观察 和 洞 见 全 部 来 自 ebay. com 的 网 络 日 志 。 通 过 
了 解 这 些 网 络 日 志 , 我 们 不 仅 可 以 看 到 顾客 正在 干什么 ,我 们 的 所 见 更 超越 了 一 个 常规 零 
售 商 所 能 见 的 。” 

如 eBay 这 样 的 可 视 化 组 织 并 非 只 是 简单 买 个 单一 应 用 程序 ,然后 机 械 地 运行 应 用 。 
相反 ,他 们 首先 提出 如 何 才能 更 方便 地 访问 数据 库 这 一 问题 ,然后 看 有 哪 种 工具 可 以 帮助 
他 们 达到 这 一 自 的 。 例 如 ,eBay 创建 了 名 为 Joomla 门户 网 站 的 数据 路 由 (Data Hub) ,以 
此 拓展 Tableau 的 核心 功能 。 数 据 路 由 是 能 够 让 eBay 员工 浏览 现 有 数据 库 并 对 虚拟 数 
据 集 市 发 出 请 求 的 安全 且 集 中 的 资源 ,访问 数据 很 大 程度 上 帮 eBay 优化 了 其 运营 ,并 对 
客户 行为 获得 了 宝贵 的 洞 见 。 

阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 

(1) eBay 是 一 家 国际 化 的 重要 的 电子 商务 企业 。 请 通过 网 络 搜索 ,了 解 eBay 企业 
开展 的 重要 业务 ,并 请 扼要 记录 。 

答 : 














(2) 请 通过 网 络 搜索 ,尝试 了 解 eBay 与 中 国 的 淘宝 、 阿 里 巴巴 等 知名 企业 的 相关 性 、 
发 展 历程 和 竞争 活动 ,了 和 解 它们 的 异同 。 如 果 可 能 ,请 简 述 你 的 评价 。 
答 : 














(3) 除了 eBay, 你 还 知道 国外 哪些 重量 级 的 国际 化 电子 商务 企业 ? 
( 答 ) : 














(4) 请 简单 描述 你 所 知道 的 上 一 周 内 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
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31 传统 的 数据 分 析 图 表 


当前 ,基于 搜索 的 数据 发 现 工具 还 没 达到 令 人 耳熟能详 的 程度 ,但 是 类 似 宣传 正 
在 引起 技术 追捧 。 大 数据 需要 新 的 数据 发 现 工具 ,自然 其 中 很 多 应 该 是 有 关 可 视 化 
的 (图 3-3) 。 





利润 结构 分 析 





结 和 明细 结构 
5000 
4000 


FE ] 
国 其 他 收入 2000 | | 
ol i | P| 


主要 业务 收入 疤 桥 。 存货 赎 价 准备 。 ”少数 股东 损益 








行 次 A 2011 年 201 年 于 sx nama 2011 征 201 年 
了 主 宫 业 学 收入 产权 3342.83 4969.76 拿 6 折扣 与 折 让 300 500 
2 投机 收 登 152.6 234 拿 了 王 营业 务 也 本 2398.71 3016.41 
3 补贴 收入 203 78.55 拿 8 主要 业务 税金 及 了 p 加 456.26 221.46 
4 营业 外 收入 83 695 3 9 存 儒 跌价 准备 238.97 55.41 
5 所 得 税 返 还 12 14 S 10 营业 要 二 ( 钠 售 费 及) 1626.91 1011.07 
1 竺 理 要 同 2067.48 1021.34 
了 2 财务 要 用 162.84 162.6 
了 3 进 所 费用 324 358 
14 营业 外 支出 238.76 44.63 








图 3-3 ”可视化 数据 分 析 


在 如 数据 可 视 化 .数据 发 现 .商业 智能 .数据 分 析 以 及 企业 级 报表 等 称谓 之 间 存 在 着 
很 多 重 蕉 ,这 些 商业 表达 之 间 的 交叉 并 不 仅仅 体现 在 概念 上 ,交叉 还 延伸 到 企业 组 织 当 前 
正在 使 用 的 成 熟 报表 和 数据 管理 应 用 之 上 。 其 中 ,Netflix( 美 国 一 家 著名 的 在 线 影 片 租 
赁 提供 商 ) 在 很 多 方面 已 遥遥 领先 于 其 他 很 多 公司 。Netflix 的 员工 不 会 仅仅 依赖 一 个 单 
一 应 用 对 数据 进行 管理 和 解释 ,相反 ,他 们 利用 多 种 工具 对 内 外 部 数据 进行 理解 。 例 如 ， 
eBay 使 用 的 主要 工具 包括 Teradata、Hadoop、SAS、Tableau 以 及 Excel 等 。 

这 里 要 强调 的 是 ,对 于 小 数据 ,企业 很 可 能 已 经 在 使 用 至 少 一 种 报表 应 用 ,并 实现 了 
一 定 程度 的 数据 可 视 化 。 大 数据 并 不 意味 着 传统 报表 的 作废 ,许多 工具 在 可 视 化 组 织 仍 
然 可 用 ,甚至 还 能 发 挥 出 更 大 价值 。 

但 是 ,可 视 化 组 织 的 价值 和 目标 通常 是 两 个 不 同 的 方面 。 在 大 数据 时 代 , 这 意味 着 员 
工 需要 学 习 新 的 应 用 ,专业 和 技能 .他 们 需要 以 直观 .交互 性 和 可 视 化 的 形式 常规 化 地 展 
示 来 自 不 同 数据 源 的 更 大 量 数据 。 通 常 ,大 多 数 传统 报表 和 BI 工具 不 能 有 效 处 理 大 数 
据 , 不 能 指望 它们 顺利 处 理 PB 级 的 非 结构 化 数据 流 。 

每 个 人 都 相信 大 型 软件 厂商 会 继续 完善 传统 报表 和 数据 可 视 工具 ,并 推出 新 的 产品 。 
但 是 ,可 视 化 组 织 也 意识 到 ,要 制订 更 好 的 决策 ,他 们 需要 的 不 仅仅 是 一 套 标准 报表 、 即 席 
查询 能 力 、 仪 表盘 分析 及 KPI 工具 ,实时 数据 发 现 应 用 的 匮乏 ,已 经 阻碍 了 很 多 企业 及 
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矿 数 所 可 物化 





其 员工 在 其 生产 力 、 客 户 、 供 应 链 和 业务 方面 发 现 数据 驱动 的 隐 性 新 洞 见 。 也 正 因为 此 ， 
可 视 化 组 织 才 会 拥抱 新 的 实时 数据 可 视 化 工具 。 
报表 、 分 析 和 数据 可 视 化 等 不 同 工 具 存在 着 本 质 的 不 同 , 如 表 3-1 所 示 。 
表 3-1 报表 、 分 析 和 数据 可 视 三 者 的 比较 

















传统 报表 工具 分 析 实时 数据 可 视 工具 
可 以 提供 答案 ,但 更 重要 的 是 ,允许 用 户 提出 更 深 也 更 好 
提供 数据 提供 答案 的 数据 问题 
提供 所 要 求 的 提供 所 需要 的 可 以 提供 所 需要 的 
通常 是 标准 化 的 通常 是 定制 化 的 et 
同 
不 以 个 体能 力 为 转移 | 跟 个 体能 力 有 关 虽 与 个 体 相关 ,但 数据 可 视 化 依然 受制 于 解释 能 力 
非常 不 灵活 非常 灵活 依靠 数据 可 视 化 ,可 非常 灵活 ;静态 信息 图 则 不 灵活 











传统 上 处 理 小 数据 ”| 传统 上 处 理 小 数据 | 既 能 处 理 大 数据 也 能 处 理 小 数据 


从 表 3-1 可 以 看 出 ,传统 报表 和 分 析 工 具 仍 然 在 起 作用 ,并 且 支 持 着 大 量 基本 商业 职 
能 。 因 此 ,它们 将 继续 在 企业 中 得 到 广泛 应 用 。 但 是 ,要 有 效 处 理 以 及 理解 大 数据 ,可 视 
化 组 织 意识 到 他 们 需要 实时 并 且 交 互 式 的 数据 可 视 应 用 ,而 原 有 的 工具 对 此 却 无 能 为 力 。 


32 数据 可 视 化 的 5 个 方面 


实时 数据 可 视 化 应 用 分 为 以 下 5 个 方面 : 

(1) 大 型 企业 软件 供应 商 应 用 ; 

(2) 专 有 的 最 优 性 能 应 用 ; 

(3) 流行 的 开源 工具 ; 

(4) 设计 公司 ; 

(5) 创业 公司 、 网 络 服务 以 及 其 他 资源 。 

这 5 种 类 别 完 全 不 同 , 但 它们 之 间 可 能 存在 一 定 程度 的 重 共 ,例如 ,设计 公司 利用 开 
源 工具 D3.js 为 其 客户 建立 交互 性 可 视 化 应 用 ;统计 学 家 用 R 抓 取 数 据 , 然 后 用 Teradata 
美化 它 ; 最 优 性 能 数据 可 视 应 用 联合 其 他 工具 ,从 传统 数据 库 、 数 据 仓 库 和 API 频繁 抽取 
数据 等 。 


3.2.1 大 型 企业 软件 供应 商 应 用 


长 期 以 来 ,诸如 IBM、Oracle、SAP、Microsoft、SAS 等 公司 已 经 开发 了 相关 产品 , 帮 
助 客户 管理 和 理解 企业 信息 。 除 了 打造 自身 产品 .在 不 同 程度 上 ,他 们 也 在 积极 并 购 具 有 
竞争 性 或 补充 性 的 数据 管理 ,报表 和 可 视 化 产品 。 即 使 没有 推出 数据 可 视 化 相关 产品 品 
牌 ,但 是 几乎 每 个 企业 都 已 经 能 够 图 形 化 地 呈现 他 们 的 原始 数据 。 表 3-2 反映 的 是 主要 
软件 厂商 提供 的 一 些 成 熟 有 效 的 应 用 软件 产品 。 
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表 3-2 主流 软件 供应 商 的 数据 可 视 化 和 BI 产品 


























> 商 可 选 的 数据 可 视 产品 
Weta 创建 基于 网 络 交 互 性 的 BI 报表 工具 。Actuate 也 是 著名 的 跨 平台 的 自由 集成 开发 环 
境 ( 商 业 智 能 和 报表 工具 )Eclipse 项 目的 创始 者 和 共同 领导 者 
IBM Cognos PowerPlay 和 Impromptu, SPSS Modeler, ManyEyes 
微软 包括 SQL 服务 器 报表 服务 ,Excel 和 Access 
MicroStrategy | 可 视 化 洞察 (Visual Insight) 和 同名 的 BI 平台 
SAP BusinessObjects BI OnDemand, SAP Lumira Cloud 
SAS SAS 的 可 视 化 分 析 及 不 同 的 传统 BI 工具 ,统计 分 析 与 动态 数据 可 视 结合 的 JMP 
Teradata Aster 可 视 化 模块 





我 们 已 经 看 到 大 型 企业 软件 供应 商 们 在 数据 可 视 化 及 其 相关 产品 方面 多 年 来 所 做 出 
的 大 量 创 新 ,更 重要 的 是 , 随 着 数据 可 视 化 变 得 越 来 越 重要 以 及 数据 流 的 不 断 增 长 ,这 种 
趋势 还 在 不 断 加 速 发 展 。 例 如 ,微软 的 Excel 几乎 是 每 台 企业 计算 机 上 必 备 的 基本 配置 。 
在 其 2013 版 本 之 前 ,一 张 单独 的 Excel 工作 表 只 可 以 容 下 最 多 65 536(2*) 行 记录 ,而 目 
前 这 个 数字 已 经 超过 百 万 ,一 些 公司 甚至 还 在 想 办 法 将 这 个 数字 增加 到 十 亿 甚 至 万 亿 。 
除了 提高 行 的 数量 上 限 之 外 ,过 去 几 年 ,微软 对 Excel 发 布 了 很 多 功能 补充 和 完善 。 
总 体 来 说 ,这 些 补充 和 完善 为 新 的 数据 源 提供 了 新 的 能 力 支 持 。 例 如 Power Map 是 一 款 
: 维 数据 可 视 化 工具 ,是 微软 基于 云端 商业 智能 解决 方案 (Power BI) 当中 的 一 个 组 件 。 
这 个 工具 可 以 对 地 理 和 时 间 数 据 进行 绘图 动态 呈现 和 互动 操作 ,目前 可 以 使 用 在 Excel 
2013 版 上 ,以 COM 加 载 项 的 方式 提供 调用 。 
Power Map 用 来 在 地 图 上 显示 数据 ,数据 中 包含 的 地 理 信 息 可 以 是 经 纬度 数据 ,也 
可 以 是 国家 、 省 份 ,城市 等 地 理 名 称 , 甚 至 可 以 是 街道 地 址 或 邮政 编码 ,这些 地 理 信息 都 能 
被 Power Map 自动 识别 。 如 果 同 时 想 要 展现 数据 在 时 间 范 围 上 的 变化 情况 ,例如 台风 云 
团 的 形成 和 移动 路 径 .车 辆 的 移动 轨迹 等 ,就 还 需要 在 数据 中 包含 日 期 或 时 间 字 段 , 并 且 
必须 使 用 Excel 能够 识别 的 日 期 格式 数据 。 新 功能 为 Excel 提供 了 3D 数据 可 视 化 ,为 人 
们 提供 了 观察 信息 的 新 的 强劲 方式 ,使 得 人 们 能 够 发 现 2D 表格 和 图 形 时 代 所 不 可 能 发 


现 的 数据 规律 。 
可 见 , 就 像 所 有 软件 供应 商 一 样 ,微软 意识 到 它 的 工具 必须 持续 改进 ,并 且 持 续 支 持 
不 断 出 现 的 新 数据 源 。 


总 体 来 说 , 表 3-2 中 的 数据 可 视 化 应 用 与 各 厂商 现 有 的 企业 级 数据 库 和 数据 仓库 基 
本 上 能 够 无 缝 集成。 通常 , 某 个 软件 厂商 的 一 个 产品 要 与 其 男 一 产品 进行 “对 话 ” 应 该 不 
会 太 困难 ,混搭 和 匹配 也 不 存在 问题 。 只 需 单 击 几 下 ,加 上 IT 部 门 的 配合 ,利用 厂商 A 
的 应 用 从 存储 在 厂商 B 的 数据 库 中 抽取 数据 ,创建 一 张 报表 .其实 也 十 分 简单 。 即 使 在 
非 正常 情况 下 ,开发 人 员 和 IT 专业 人 员 也 可 以 通过 非常 规 方式 建立 联系 ,实现 数据 
连接 。 


矿 数 所 可 摘 化 


3.2.2 最 优 性 能 应 用 


20 世纪 90 年 代 和 21 世纪 初 ,技术 界 出 现 了 很 多 起 企业 购并 行动 。 例 如 ,IBM、 微 
软 、 思 科 (Cisco) .SAP、SAS 以 及 甲骨 文 (Oracle) 等 技术 巨头 公司 ,在 如 企业 安全 、CRM 、 
ERP、BI 及 其 他 领域 吞并 了 数 百 家 专业 厂商 。 引 发 这 些 交易 的 原因 不 同 , 但 是 总 体 而 言 ， 
可 分 为 = 种 情况 。 第 一 ,他 们 通常 通过 其 他 厂商 的 产品 来 补充 和 完善 自己 的 现 有 产品 ;第 
二 ,在 很 多 情况 下 ,这 些 交易 用 来 平衡 现 有 客户 和 厂商 间 的 关系 。 很 多 客户 喜欢 一 站 式 购 






买 和 一 点 接触 ;第 三 ,资金 紧张 的 厂商 通常 发 现 购买 竞争 性 技术 以 及 相关 人 才 , 要 比 自己 
研究 培 易 得 多 。 如 果 你 不 能 打败 他 ,那么 就 加 入 他 。 


就 数据 可 视 化 而 言 , Tableau 可 以 算是 业内 疙 楚 , 它 服务 着 10 000 多 家 客户 ,包括 
Facebook、eBay、Manpower、Pandora 及 其 他 著名 公司 。 跟 微软 不 同 ,Tableau 并 不 销售 生 
产能 力 应 用 、 游 戏 机 以 及 关系 型 数据 库 , 它 提供 的 产品 范围 并 不 广 , 但 是 产品 做 得 很 透彻 ， 
Tableau 只 销售 数据 可 视 化 应 用 ,至 少 现在 而 言 是 这 样 (图 3-4)。 
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图 3-4 用 Tableau 制作 的 可 视 化 数据 分 析 图 表 


Tableau 可 能 是 市 场 上 最 普及 、 最 好 的 数据 可 视 化 工具 .但 是 它 也 面临 很 多 竞争 。 例 
如 ,QlikTech 通过 其 旗舰 产品 推出 产品 自助 服务 BI; TIBCO Spotfire 为 下 一 代 商 业 智 能 
设计 、 研 发 和 推广 内 存 分 析 软 件 ; 还 有 其 他 企业 , 如 Birst、ChartBeat、 Panopticon、 
GoodData、Indicee、PivotLink 以 及 Visually 等 ,这 些 公司 聚焦 于 一 件 事 情 一 一 数据 可 视 
化 ,虽然 它们 各 自 采 取 不 同 的 方式 。 

通常 ,评估 一 个 最 佳 工具 的 三 个 基本 要 素 是 成 本 、 易 用 性 和 员工 培训 ,以 及 与 大 数据 
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世界 的 整合 。 

1. 成 本 

在 大 型 企业 软件 供应 商 和 诸如 Tableau 等 专业 公司 之 间 ,同样 是 数据 可 视 化 工具 ,也 
存在 很 大 的 不 同 。 大 体 而 言 ,前 者 卖 得 相当 贵 ,而 且 通 常 是 大 多 数 小 企业 和 创业 公司 不 可 
企及 的 。 当 然 , 如 今 开源 软件 ,SaaS 以 及 基于 云 的 产品 已 经 大 大 拉平 了 浣 争 差距 。 新 进 
入 的 最 优 性 能 数据 可 视 化 工具 通常 成 本 更 低 , 且 功能 更 完善 。 





2 方便 使 用 和 员工 培训 

任何 一 个 新 项 目 都 需 进 行 一 定 程度 的 员工 培训 。 以 Visually 为 例 (图 3-5) ,作为 一 
种 工具 ,Visually 强大 直观 ,能 够 一 站 式 地 创建 强大 的 数据 可 视 化 和 信息 图 , 且 应 用 广泛 ， 
认同 者 其 多 。 


visually 


Visual Content That Works 





图 3-5 Visually 






Visually 的 客户 寻求 的 是 范围 完整 的 数据 可 视 化 类 型 ,大 多 数 客户 需要 能 够 用 图 表 
呈现 数据 ,以 图 解 或 图 形 化 方式 表达 过 程 和 概念 的 信息 图 。 一 些 客户 则 需要 交互 式 的 可 
视 化 ,范围 从 地 图 到 时 间 轴 的 定制 性 可 视 化 。 动 态 图 形 近来 大 为 流行 ,因为 它们 特别 能 吸 
引 观 众 ,讲述 故事 的 能 力也 极 出 色 。 最 后 ,其 他 的 客户 则 需要 借助 工具 来 进行 演示 陈述 、 
季度 报告 或 其 他 需要 实现 数据 信息 有 效 传达 的 内 部 文档 交流 。 

但 是 ,对 于 任何 新 的 应 用 来 说 ,仍然 存在 一 条 学 习 曲 线 ,而 Visually 也 不 例外 。 


3 集成 与 大 数据 世界 


与 大 型 企业 软件 供应 商 所 提供 的 产品 相 比 ,最 优 性 能 数据 可 视 化 应 用 可 能 并 不 能 提 
供 同 样 的 本 地 化 、 最 优化 以 及 与 第 三 方 数 据 库 和 数据 仓库 的 直接 整合 能 力 , 因 此 ,这 造成 
了 一 个 严重 问题 ,次 优先 级 别 的 连接 、ETL( 抽 取 、 转 换 、 上 载 ) 工 作 、 笨 拙 的 方法 等 , 均 使 
得 用 户 采集 数据 、 以 可 视 化 方式 展现 以 及 制定 商业 决策 等 需要 更 长 的 时 间 。 然 而 在 大 数 








大 数据 可 久 化 


意识 到 这 点 局 限 , 最 佳 数 据 可 视 化 厂商 迅速 建立 了 连接 各 种 数据 源 之 间 的 桥 粱 。 它 
们 也 支持 数量 越 来 越 多 的 API, 例 如 ,Tableau 已 经 与 一 些 世界 最 大 的 数据 库 公 司 建立 了 
合作 伙伴 关系 ,包括 大 型 数据 仓库 和 BI 厂商 Teradata 等 。Tableau 也 与 Teradata 重点 
产品 进行 直接 无 颖 集成 。 

与 传统 企业 数据 库 和 数据 仓库 的 集成 很 重要 ,但 这 还 不 够 。 至 少 从 传统 意义 上 而 言 ， 
很 多 即使 是 最 大 型 的 公司 也 无 须 再 将 “全 部 ”数据 存储 在 企业 内 部 。 可 视 化 组 织 越 来 越 需 
要 能 够 超越 关系 型 数据 并 与 实时 大 数据 服务 密切 整合 的 工具 ,很 多 这 些 工具 基于 云 之 上 。 
正 因 如 此 ,2013 年 7 月 ,Tableau 就 宣布 推出 在 线 Tableau, 即 基于 网 络 的 服务 。 这 种 方 
式 使 得 能 够 对 主要 大 数据 源 进行 快速 便捷 的 导入 以 及 连接 : 

(1) 已 经 放 在 如 Salesforce. com 在 线 应 用 的 数据 能 够 被 直接 复制 进 Tableau 内 进行 
抽取 ; 

(2) 可 直接 查询 Amazon Redshift 和 Google Big Query 里 的 数据 ; 

(3) 利用 厂商 提供 的 工具 可 将 数据 中 心 内 部 部 署 的 数据 导入 Tableau 在 线 服 务 。 

其 实 ,一 些 规模 远 不 及 Tableau 的 数据 可 视 创 业 公 司 也 已 经 意识 到 与 企业 数据 及 外 
部 数据 源 进行 便捷 整合 的 价值 和 重要 性 。 例 如 ,2013 年 7 月 ,创业 公司 DataHero 宣布 其 
用 户 能 够 从 他 们 的 SurvcyMonkcy 账户 通过 API 将 数据 自动 导出 (DataHero 也 支持 
MailChimp、Dropbox、BOX. Net、Strip 及 其 他 流行 的 API 服务 )。 通 过 与 调查 响应 数据 
的 便捷 连接 ,用 户 能 够 实时 对 动态 可 视 化 进行 观察 ,并 有 可 能 获得 对 客户 行为 的 关键 和 实 
时 洞察 。 


3.2.3 流行 的 开源 工具 


成 本 高 昂 的 企业 级 解决 方案 ,专用 性 强 的 最 优 性 能 应 用 .它们 分 别 代 表 着 完全 可 行 的 
两 种 数据 可 视 化 情况 ,这 里 ,还 存在 着 第 三 种 情况 .有 大 量 免费 开源 方案 可 用 来 支撑 数据 
可 视 化 应 用 ,例如 D3、R 语言 .Gephi 等 。 









1. DBjs 


D3.js 处 理 的 是 基于 数据 文档 的 JavaScript 库 。D3 利用 诸如 HTML、 Scalable 
Vector Graphic 以 及 Cascading Style Sheets 等 编程 语言 让 数据 变 得 更 生动 。 通 过 对 网 络 
标准 的 强调 ,D3 赋予 用 户 当 前 浏览 器 的 完整 能 力 ,而 无 须 与 专用 架构 进行 捆绑 ,将 强 有 力 
的 可 视 化 组 件 和 数据 驱动 手段 与 文档 对 象 模型 (Document Object Model, DOM) 操 作 实 
现 融合 。 

D3.js 数据 可 视 化 工具 的 设计 很 大 程度 上 受到 REST Web APIs 出 现 的 影响 。 根 据 


中 “病毒 视频 ”(Viral Video) 可 以 看 作 是 “病毒 传播 "的 最 新 形态 。 网 络 爆 红 视频 通常 是 视频 上 传 到 视频 分 享 网 
站 时 ,观看 次 数 很 短 时 间 内 就 砚 升 。 病 毒 式 营 销 是 利用 传播 源 与 传播 载体 节点 在 潜在 需求 上 的 相似 性 ,将 传播 源 或 企 
业 传 播 信息 价值 进行 的 一 种 像 病 毒 一 样 以 倍增 的 速度 进行 扩散 并 产生 群体 分 享 传播 的 过 程 。 由 于 它 的 原理 跟 病 毒 的 
传播 类 似 ,经 济 学 上 称 之 为 病毒 式 营销 ,是 网 络 营销 中 的 一 种 常见 而 又 非常 有 效 的 方法 。 
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以 往 经 验 , 创 建 一 个 数据 可 视 化 需要 以 下 过 程 : 

(1) 从 多 个 数据 源 汇总 全 部 数据 ; 

(2) 计算 数据 ; 

(3) 生成 一 个 标准 化 的 /统一 的 数据 表格 ; 

(4) 对 数据 表格 创建 可 视 化 。 

REST APIs 已 将 这 个 过 程 流程 化 ,使 得 从 不 同 数据 源 迅 速 抽 取 数 据 变 得 非常 容易 。 
诸如 D3 等 工具 就 是 专门 设计 来 处 理 源 于 JSON API 的 数据 响应 ,并 将 其 作为 数据 可 视 
化 流程 的 输入 。 这 样 ,可 视 化 能 够 实时 创建 并 在 任何 能 够 呈现 网 页 的 终端 上 展示 ,使 得 当 
前 信息 能 够 及 时 给 到 每 一 个 人 。 


2 其 他 


Gephi 自称 为 “开放 的 图 表 及 可 视 化 平台 ” ,支撑 用 户 创建 \ 探 索 和 理解 图 表 。 相 较 于 
仅仅 是 图 形 和 数据 呈现 的 Photoshop ,Gephi 能 支持 各 种 不 同 网 络 和 复杂 系统 ,帮助 用 户 
创建 动态 的 层次 丰富 的 图 表 。 

Gephi 起 创 于 2009 年 的 一 个 大 学 生 项 目 , 却 已 迅速 成 为 一 个 对 可 视 化 和 分 析 尤 其 是 
大 型 网 络 而 言 ,颇具 价值 的 开源 软件 资源 。 现 在 ,Gephi 使 得 成 千 上 万 的 用 户 创 建 并 检验 
假设 .深入 探寻 模式 以 及 观测 异常 值 . 偏 差 值 变 得 十 分 容易 。 可 以 将 Gephi 想象 成 统计 辅 
助 工 具 (Gephi 还 能 跟 R 进行 整合 ) 。 

还 有 两 个 著名 的 开源 BI 解决 方案 Jaspersoft 和 Pentaho。 确 切 地 说 ,它们 并 不 完全 
是 数据 可 视 化 应 用 ,但 是 ,上 百 万 用 户 下 载 这 些 工具 并 将 它们 用 于 解释 数据 和 理解 他 们 的 
业务 问题 。 

这 些 开源 工具 所 代表 的 仅仅 是 数据 可 视 化 和 软件 程序 的 冰山 一 角 。 


3.2.4 设计 公司 


随 着 大 数据 的 爆发 ,我 们 已 经 看 到 信息 图 (尤其 在 新 闻 网 站 ) 、 数 据 可 视 化 工具 以 及 设 
计 公 司 的 相应 兴起 ,例如 Stamen 和 Lemonly 公司 。Stamen 已 经 因 在 商业 、 文 化 设施 等 
不 同 领域 开发 的 巧妙 且 颇 具 技 术 难度 的 项 目 而 打响 品牌 ,完成 了 一 些 完 美的 工作 。 

Lemonly 制作 了 生动 的 信息 图 .数据 可 视 化 、 交 互 式 图 表 甚 至 视频 展示 ,这 家 公司 的 
网 站 也 明确 地 概括 了 其 目标 :“ 我 们 使 得 数据 更 易 理 解 ,从 信息 图 到 视频 再 到 交互 式 设 
计 ,我们 帮 您 将 柠檬 调制 成 柠檬 秆 。”"Lemonly 持续 推进 着 设计 的 边界 ,即使 非常 小 的 数据 
集 也 能 将 其 以 生动 的 方式 进行 可 视 化 呈现 。 

当然 ,要 专 为 数据 可 视 化 目的 聘请 一 家 设计 公司 , 既 有 利 也 有 次。 与 不 同 公司 的 数据 
可 视 化 专家 签订 合同 ,可 能 能 够 迅速 见 到 激动 人 心 的 结果 。 确 切 地 说 ,一 家 企业 若 想 为 实 
现 数据 可 视 化 而 奋斗 ,与 雇佣 一 个 要 价 不 菲 的 专家 团队 这 种 方式 相 比 ,肯定 更 愿意 接受 分 
别 与 一 家 家 公司 签约 、 进 行 一 家 家 试 水 的 方式 。 专 业 设 计 师 通常 能 够 找到 更 强 有 力 、 更 创 
新 的 方式 来 展示 数据 ,原因 非常 简单 ,因为 他 们 所 具备 的 技能 ,经验 、 工 具 和 视角 ,经 常 是 
企业 现 有 员工 所 缺乏 的 。 无 数 企 业 都 是 利用 设计 公司 创建 了 强劲 的 定制 化 数据 可 视 化 
应 用 。 
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3.2.5 创业、 网 站 服务 及 其 他 资源 


一 直到 最 近 , 大 多 数 企 业主 要 还 是 利用 瀑布 式 自 上 而 下 的 方法 进行 应 用 部 署 ,因此 ， 
对 于 ERP.CRM、BI 以 及 内 部 技术 的 整个 部 署 过 程 花 费 上 数 年 也 属 正常 。 

如 今 ,我 们 所 处 的 时 代 是 一 个 实时 连接 、 宽 带 接 和 人、 创业 成 本 历史 最 低 , 社 交 网 络 、 云 
计算 、SaaS、 敏 捷 软 件 开发 .APIs、SDKs、 大 数据 、 开 源 软件 .BYOD 的 免费 增值 商业 模式 
时 代 。 确 实 , 今 天 看 起 来 没完 没 了 的 数据 流 和 技术 暂时 还 有 点 让 人 惊慌 ,但 是 也 有 好 的 一 
面 ,至 少 人 们 从 来 未 曾 获 得 过 如 此 强大 、 用 户 友 好 且 极 为 便宜 一 一 即使 并 非 免 费 一 一 的 数 
据 可 视 化 资源 。 

除 新 的 创业 型 开源 项 目 外 ,也 不 乏 有 关 数 据 可 视 化 实践 的 网 站 和 博客 。 其 中 非常 惹 
人 注目 的 两 个 ,名 称 分 别 是 Tableau Love 和 Tableau Jedi。 

留意 谁 在 使 用 一 些 特定 的 工具 以 及 为 什么 使 用 ,这 十 分 重要 。 例 如 ,R 在 统计 学 团体 
中 十 分 流行 ,因为 它 依赖 并 帮助 这 些 团体 不 断 发 展 ,所 以 对 于 统计 学 家 来 说 ,R 更 易 理 解 ; 
对 于 数学 家 来 说 , MATLAB 更 易 理解 ;对 于 艺术 家 和 设计 师 来 说 ,Processing 更 易 理 解 ; 
而 对 于 金融 人 士 和 更 广泛 的 公众 而 言 ,Excel 更 易 理 解 。 而 D3 被 大 量 、 迅 速 地 推广 采用 
的 部 分 原因 在 于 其 灵活 性 ,更 重要 的 是 ,D3 是 为 一 个 通用 平台 , 即 网 络 而 设计 的 。 无 论 如 
何 , 要 成 功 在 大 数据 时 代 邀 游 , 不 同 的 受众 所 需要 的 工具 是 不 同 的 。 
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通过 学 习 关 于 数据 的 知识 ,你 会 知道 如 何 表示 数据 ,如何 直观 地 探索 数据 如何 使 数 
据 清晰 明了 ,以 及 如 何 针对 读者 来 设计 可 视 化 图 表 。 

在 可 视 化 方面 ,如 今 用 户 有 大 量 的 工具 可 供 选用 ,但 哪 一 种 工具 最 适合 ,这 将 取决 于 
数据 以 及 可 视 化 数据 的 目的 。 而 最 可 能 的 情形 是 ,将 某 些 工具 组 合 起 来 才 是 最 适合 的 。 
有 些 工具 适合 用 来 快速 浏览 数据 ,而 有 些 工具 则 适合 为 更 广泛 的 读者 设计 图 表 。 

可 视 化 的 解决 方案 主要 有 两 大 类 : 非 程序 式 和 程序 式 。 以 前 可 用 的 程序 很 少 ,但 随 
着 数据 源 的 不 断 增长 ,涌现 出 了 更 多 的 点 击 / 拖 忠 型 工具 ,它们 可 以 协助 用 户 理解 自己 的 
数据 。 


3.3.1 Microsoft Excel 


Excel 是 大 家 熟悉 的 电子 表格 软件 ,已 被 广泛 使 用 了 二 十 多 年 .如今 甚至 有 很 多 数据 
只 能 以 Excel 表格 的 形式 获取 到 。 在 Excel 中 ,让 某 几 列 高 亮 显 示 、 做 几 张 图 表 都 很 简 
单 ,于 是 也 很 容易 对 数据 有 个 大 致 的 了 解 (图 3-6) 。 

如 果 要 将 Excel 用 于 整个 可 视 化 过 程 ,应 使 用 其 图 表 功 能 来 增强 其 简洁 性 。Excel 的 
默认 设置 很 少 能 满足 这 一 要 求 。Excel 的 局 限 性 在 于 它 一 次 所 能 处 理 的 数据 量 上 ,而 且 
除非 你 通晓 VBA 这 个 Excel 内 置 的 编程 语言 ,否则 针对 不 同 数据 集 来 重 制 一 张 图 表 会 是 
一 件 很 繁琐 的 事情 。 
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图 3-6 ”Excel 数据 图 表 


3.3.2 Google Spreadsheets 


这 个 软件 基本 上 是 谷歌 版 的 Excel( 图 3-7) ,但 用 起 来 更 容易 ,而 且 是 在 线 的 。 在 线 
这 一 特性 是 它 最 大 的 亮点 ,因为 用 户 可 以 跨 不 同 的 设备 来 快速 访问 自己 的 数据 ,而 且 可 以 
通过 内 管 的 聊天 和 实时 编辑 功能 进行 协作 。 
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图 3-7 Google Spreadsheets 工作 界面 


通过 importHTML 和 importXML 函数 ,可 以 从 网 上 导入 HTML 和 XML 文件。 例 
如 ,如 果 在 百度 上 发 现 了 一 张 HTML 表格 ,但 想 把 数据 存 成 CSV 文件 ,就 可 以 用 
importHTML ,然后 再 从 Google Spreadsheets 中 把 数据 导出 。 


天 起 者 可 岗 堵 


3.3.3 Tableau 


相对 于 Excel, 如 果 想 对 数据 做 更 深入 的 分 析 而 又 不 想 编程 ,那么 Tableau 数据 分 析 
软件 (也 称 商 务 智 能 展现 工具 ) 就 很 值得 一 看 。 例 如 ,Tableau 与 Mapbox 的 集成 能 够 生 
成 绚丽 的 地 图 背景 ,并 添加 地 图 层 和 上 下 文 , 生 成 与 用 户 数据 相配 的 地 图 (图 3-8)。 用 
Tableau 软件 设计 的 可 视 化 界面 ,在 发 现 有 趣 的 数据 点 并 想 一 探究 竟 时 ,可 以 方便 地 与 数 
据 进行 交互 。 





图 3-8 Tableau Software 


Tableau 可 以 将 各 种 图 表 整 合成 仪表 盘 在 线 发 布 , 但 为 此 必须 公开 自己 的 数据 ,把 数 
据 上 传 到 Tableau 服务 器 。 


3.3.4 针对 特定 数据 的 工具 


下 面 这 些 软件 能 处 理 多 种 类 型 的 数据 ,并 可 以 提供 许多 不 同 的 可 视 化 功能 。 这 对 了 
数据 的 分 析 和 探索 大 有 好 处 ,因为 它们 能 够 使 用 户 快速 地 从 不 同 角度 观察 自己 的 数据 。 
不 过 ,有 的 时 候 专注 地 做 好 一 件 事 也 许 会 更 好 。 

1. Gephi 

如 果 见 过 一 张 网 络 图 ,或 者 一 个 由 一 条 束 边 线 和 一 个 节点 构成 的 视觉 形象 (有 的 就 像 


一 个 毛 球 ) ,那么 它 很 可 能 是 用 Gephi 画 出 来 的 。Gephi 是 一 款 开源 的 画图 软件 .支持 交 
互 式 探索 网 络 与 层次 结构 。 


ni 





2 TileMil 


自 定义 地 图 的 制作 难度 较 大 且 技术 性 强 , 然 而 现在 已 经 有 多 种 程序 使 得 基于 自己 的 
数据 、 按 喜好 和 需求 设计 地 图 变 得 相对 容易 了 。 地 图 平台 MapBox 提供 的 TileMill 就 是 
一 款 开源 的 桌面 软件 ,有 不 同 平台 的 多 个 版 本 。 可 以 下 载 并 安装 ,然后 加 载 一 个 
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shapefile, 就 像 图 3-9 那样 。 





图 3-9 MapBox 的 TileMill 图 例 


shapefiles 是 用 来 描述 诸如 多 边 形 、 线 和 点 这 种 地 理 空间 数据 的 文件 格式 ,网 上 很 容 
易 找到 这 种 文件 。 例 如 ,美国 人 口 调查 局 就 提供 了 道路 水域 和 街区 的 shapefile。 


3. ImagePlat 


加 州 电 信 学 院 软件 研究 实验 室 的 ImagePlot 能 将 大 规模 的 图 像 集合 作为 一 组 数据 点 
来 进行 探索 。 例 如 ,可 以 根据 颜色 .时 间或 数量 来 绘制 图 形 , 从 而 展现 某 位 艺术 家 或 某 一 
组 照片 的 发 展 趋势 与 变化 。 


4 树 图 


绘制 树 图 的 方法 有 很 多 种 ,但 马里 兰 大 学 人 机 交互 实验 室 的 交互 式 软件 是 最 早 的 ,而 
且 可 以 免费 使 用 。 树 图 对 于 探索 小 空间 中 的 层次 式 数据 非常 有 用 。Hive 小 组 还 开发 并 
维护 了 一 款 商用 版 本 。 


5. indiemepper 
indiemapper 是 地 图 制作 小 组 Axis Maps 提供 的 一 个 免费 服务 。 与 TileMill 类 似 , 它 支 
持 创 建 自 定义 地 图 以 及 用 自己 的 数据 制图 ,但 它 运行 在 浏览 器 中 ,而 不 是 作为 桌面 客户 端 软 


件 运 行 。indiemapper 使 用 简单 .并 且 有 大 量 的 示例 可 以 帮助 用 户 起 步 。 这 款 应 用 最 让 人 喜 
欢 的 一 点 是 它 可 以 方便 地 变换 地 图 投影 ,这 能 引导 用 户 找 出 最 适合 自己 需要 的 投影 方式 。 


6 CeoCommpnrs 


GeoCommons 与 indiemapper 类 似 , 但 更 专注 于 数据 的 探索 和 分 析 。 用 户 可 以 上 传 
自己 的 数据 ,也 可 以 从 GeoCommons 数据 库 中 抽取 数据 ,然后 与 点 和 区 域 进行 交互 。 用 
户 还 可 以 将 数据 以 多 种 常见 的 格式 导出 :以 便 导 入 其 他 软件 。 





为 娄 电 回 钢 呈 


了 ArcGS 


在 新 的 地 图 工具 出 现 之 前 ,对 大 多 数 人 来 说 ,ArcGIS 都 是 首选 的 地 图 工具 。ArcGIS 
是 个 特性 丰富 的 平台 ,几乎 能 做 与 地 图 有 关 的 任何 事情 。 大 多 数 时 候 , 基 本 功能 已 经 足 
够 ,因此 最 好 还 是 先 尝 试 一 下 免费 软件 ,如 果 不 够 用 ,再 尝试 ArcGIS 。 
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拿 来 即 用 的 软件 可 以 让 你 短 时 间 内 上 手 , 代 价 则 是 这 些 软件 为 了 能 让 更 多 的 人 处 理 
自己 的 数据 ,总 是 或 多 或 少 进行 了 泛 化 。 此 外 ,如 果 想 得 到 新 的 特性 或 方法 ,就 得 等 别人 
为 你 实现 。 相 反 , 如 果 你 会 编程 ,就 可 以 根据 自己 的 需求 将 数据 可 视 化 并 获得 灵活 性 。 

显然 ,编码 的 代价 是 需要 花 时 间 学 习 一 门 新 语言 。 当 开始 构造 自己 的 库 并 不 断 学 习 
新 的 内 容 , 重 复 这 些 工 作 并 将 其 应 用 到 其 他 数据 集 上 也 会 变 得 更 容易 。 


3.4.1 R 语 言 


由 新 西 兰 奥克兰 大 学 Ross Ihaka 和 Robert Gentleman 开发 的 R 是 一 个 用 于 统计 学 
计算 和 绘图 的 语言 , 它 已 超越 仅仅 是 流行 的 强 有 力 开源 编程 语言 的 意义 ,成 为 统计 计算 和 
图 表 呈 现 的 软件 环境 ,并 且 还 处 在 不 断 发 展 的 过 程 中 (图 3-10) 。 
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图 3-10 R 绘制 的 数据 分 析 图 形 
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如 今 ,R 的 核心 开发 团队 完善 了 其 核心 产品 ,这 将 推动 其 进入 一 个 令 人 激动 的 全 新 方 
向 。 无 数 的 统计 分 析 和 挖掘 人 员 利 用 R 开发 统计 软件 并 实现 数据 分 析 。 对 数据 挖掘 人 
员 的 民意 和 市 场 调 查 表明 ,R 近年 的 普及 率 大 幅 增 长 。 

R 语言 最 初 的 使 用 者 主要 是 统计 分 析 师 ,但 后 来 用 户 群 扩充 了 不 少 。 它 的 绘图 函数 
能 用 短 短 几 行 代码 便 将 图 形 画 好 ,通常 一 行 就 够 了 。 

Genentech 公司 的 高 级 统计 科学 家 Nicholas Lewin-Koh 描述 R* 对 于 创建 和 开发 生 
动 \ 有 趣 图 表 的 支撑 能 力 丰 富 ,基础 及 已 经 包含 支撑 包括 协同 图 (Coplot) ,拼接 图 (Mosaic 
Plot) 和 双 标 图 (Biplot) 等 多 类 图 形 的 功能 ,”R 更 能 帮助 用 户 创建 强大 的 交互 性 图 表 和 数 
据 可 视 化 。 

R 语言 的 主要 优势 在 于 它 是 开源 的 ,在 基础 分 发 包 之 上 ,人 们 又 做 了 很 多 扩展 包 , 这 
些 包 使 得 统计 学 绘图 (和 分 析 ) 更 加 简单 ,例如 : 

(1) ggplot2: 基于 利 兰 。 威 尔 金 森 图 形 语 法 的 绘图 系统 ,是 一 种 统计 学 可 视 化 框架 。 

(2) network: 可 创建 带 有 节点 和 边 的 网 络 图 。 

(3) ggmaps: 基于 谷歌 地 图 .OpenStreetMap 及 其 他 地 图 的 空间 数据 可 视 化 工具 , 它 
使 用 了 ggplot2 。 

(4) animation: 可 制作 一 系列 的 图 像 并 将 它们 串联 起 来 做 成 动画 。 

(5) portfolio: 通过 树 图 来 可 视 化 层次 型 数据 。 

这 里 只 列举 了 一 小 部 分 。 通 过 包 管 理 器 ,用 户 可 以 查看 并 安装 各 种 扩展 包 。 通 常 , 用 
R 语言 生成 图 形 ,然后 用 插画 软件 精制 加 工 。 在 任何 情况 下 ,如 果 在 编码 方面 是 新 手 , 而 
且 想 通过 编程 来 制作 静态 图 形 ,R 语言 都 是 很 好 的 起 点 。 


3.4.2 JavaScriptJHTML SVG 和 CSS 


在 可 视 化 方面 ,过 去 在 浏览 器 上 可 做 的 事情 是 非常 有 限 ,通常 必须 借助 于 Flash 和 
ActionScript。 然 而 ,自从 不 支持 Flash 的 苹果 移动 设备 出 现 之 后 ,人 们 便 很 快 转 向 了 
JavaScript 和 HTML。 除 了 可 缩放 矢量 图 形 (SVG) 之 外 ,JavaScript 还 可 用 来 控制 
HTML。 层 全 样 式 表 (CSS) 则 用 于 指定 颜色 、 尺 寸 及 其 他 美术 特性 。JavaScript 具有 很 
大 的 灵活 性 ,可 以 做 出 用 户 想 要 的 各 种 效果 。 在 这 一 点 上 ,更 大 的 局 限 还 是 在 于 自己 的 想 
象 力 , 而 非 技 术 。 

以 前 各 种 浏览 器 对 JavaScript 的 支持 不 尽 一 致 ,然而 在 现 有 的 浏览 器 ,例如 FireFox、 
Safari 和 Google Chrome 中 .都 能 找到 相应 功能 来 制作 在 线 的 交互 式 可 视 化 效果 。 

如 果 看 到 的 数据 是 在 线 的 、 可 交互 式 的 ,那么 很 可 能 作者 就 是 用 JavaScript 制作 的 。 
学 习 JavaScript 可 以 从 零 起 步 . 不 过 有 一 些 可 视 化 库 会 带 来 不 少 的 便利 。 


3.4.3 Processing 


Processing 原本 是 为 美工 设计 的 , 它 是 一 种 开源 的 编程 语言 ,基于 素描 本 (sketchbook) 
这 一 隐喻 来 编写 代码 。 如 果 是 编程 新 手 . Processing 将 是 个 不 错 的 出 发 点 ,因为 用 
Processing 只 需要 几 行 代码 就 能 实现 非常 有 用 的 功能 。 此 外 , 它 还 有 大 量 的 示例 、 库 、 图 
书 以 及 一 个 提供 帮助 的 巨大 社区 ,这 一 切 都 让 Processing 引 人 注 目 。 
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3.4.4 Flash 和 ActionScript 


这 个 解决 方案 已 经 过 时 了 ,但 大 多 数 计算 机 都 安装 了 Flash, 因 此 现在 通过 Flash 和 
ActionScript 来 把 数据 可 视 化 并 不 显得 很 古怪 。 然 而 ,对 于 在 线 应 用 来 说 ,技术 的 趋势 似 
平 还 是 要 从 Flash 身上 移 走 。 因 此 ,如 果 是 可 视 化 和 编程 方面 的 新 手 , 也 可 以 从 
JavaScript 入 手 。 


3.4.5 Python 


Python 是 一 款 通 用 的 编程 语言 , 它 原本 并 不 是 针对 图 形 设计 的 ,但 还 是 被 广泛 地 应 
用 于 数据 处 理 和 Web 应 用 。 因 此 ,如 果 你 已 经 熟悉 了 这 门 语 言 ,通过 它 来 可 视 化 探索 数 
据 就 是 合情合理 的 。 尽 管 Python 在 可 视 化 方面 的 支持 并 不 全 面 ,但 还 是 可 以 从 
matplotlib 入 手 ,这 是 个 很 好 的 起 点 。 


3.4.6 PHP 


和 Python 一样,PHP 也 是 比 R 语言 和 Processing 应 用 更 为 广泛 的 编程 语言 。 虽 然 
PHP 主要 用 于 Web 编程 ,但 因为 大 多 数 Web 服务 器 都 已 经 安装 了 PHP, 就 不 必 操 心安 
装 这 一 步 了 。PHP 还 有 图 形 库 , 这 意味 着 可 以 把 它 应 用 于 数据 的 可 视 化 。 基 本 上 ,只 要 
能 加 载 数据 并 基于 数据 画图 ,就 可 以 创建 视觉 数据 。 
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光彩 鲜艳 的 静态 图 形 , 尤 其 是 报纸 和 杂志 上 常见 的 那 种 图 形 , 极 有 可 能 是 经 过 插图 软 
件 处 理 的 。Adobe Illustrator 是 最 为 流行 的 插图 软件 ,但 对 不 经 常 使 用 它 或 者 只 想 将 图 
表 润 色 一 下 的 人 们 来 说 , 它 的 使 用 有 点 奢侈 。Inkscape 则 是 一 款 开源 的 替代 品 ,尽管 不 如 
Ilustrator 好 用 ,也 足够 完成 工作 了 。 

Ilustrator 是 针对 设计 师 和 美工 的 。 一 般 应 用 的 典型 工作 流程 就 是 用 R 语言 创建 基 
础 图 形 ,将 图 表 保存 为 PDF 文件 ,然后 用 Illustrator 来 修改 颜色 .添加 标注 .最 后 再 加 工 
一 下 ,让 图 表 尽 可 能 清晰 明了 。 当 然 , 也 可 以 用 R 语言 来 定制 .但 用 Ilustrator, 通 过 单 
击 、 拖 踢 的 方式 来 变换 元 素 ,能 够 看 到 即时 的 变化 。 


36 数据 统计 


不 管 使 用 什么 软件 , 别 忘 了 我 们 的 目的 是 理解 数据 。 如 果 是 针对 广大 读者 设计 可 视 
化 图 表 , 则 是 帮助 他 人 理解 数据 。 通 过 可 视 化 可 以 获得 大 量 的 信息 ,大 多 数 时 候 ,这 也 足 
以 让 我 们 明白 数据 在 说 什么 。 

然而 ,数据 在 规模 、 维 度 和 粒度 方面 变 得 过 于 复杂 时 ,可 视 化 对 人 们 的 帮助 也 是 有 限 
的 。 毕 竞 ,屏幕 上 的 像素 就 这 么 多 ,最 终 会 变 得 不 够 用 。 正 如 哈 德 利 * 威 克 姆 所 说 :“ 可 
视 化 终 将 受 限 于 能 输出 到 屏幕 上 的 像素 数量 。 如 果 数 据 量 很 大 .你 所 拥有 的 数据 远 远 超 
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出 像素 总 数 ,这 时 你 就 不 得 不 对 数据 进行 归纳 汇总 。 对 于 这 种 需求 ,统计 学 提供 了 大 量 真 
正 有 用 的 工具 。” 

统计 学 绝 不 仅仅 是 “假设 检验 "“ 贝 尔 曲线 ?这些 东西 。 最 起 码 ,关于 数据 说 明 的 问 
题 , 以 及 如 何 从 文本 文件 和 数据 库 的 一 堆 数 字 中 筛选 出 有 用 信息 ,统计 学 就 提供 了 更 宽阔 
的 视角 。 统 计 学 还 有 助 于 处 理 稀 朴 和 损毁 的 数据 。 掌握 它 , 你 的 口袋 里 便 又 多 了 一 种 
工具 。 


【延伸 阅读 】 
复制 人 类 大 脑 一 一 蓝 脑 计划 


据 估 计 , 一 个 成 人 的 大 脑 中 有 接近 一 千 亿 个 神经 元 ,每 一 个 神经 元 周边 都 缠绕 着 成 千 
上 万 的 神经 树 突 和 轴 突 。 人 脑 表现 出 来 的 惊人 复杂 性 已 经 成 为 当今 神经 科学 家 最 棘手 的 
难题 之 一 ,促使 科学 家 们 不 断 反思 ,修正 有 关 大 脑 的 科学 假设 。 和 神经 科学 领域 中 的 一 位 先 
锋 人 物 就 是 享 利 。 马 克 菜 姆 ,他 是 瑞士 洛桑 联邦 理工 学 院 (EPFL) 神 经 科学 中 心 的 负责 
人 ,也 是 著名 的 蓝 脑 计 划 (Blue Brain Project) 的 项 目 主管 。 

蓝 脑 计划 旨 在 构建 一 个 完整 的 人 脑 模型 ,呈现 其 复杂 精细 的 特性 ,以 达到 治疗 阿尔 蒋 
海 默 氏 症 和 帕 金 森 氏 症 的 目的 。 蓝 脑 计 划 的 主要 研究 对 象 集 中 在 人 类 思考 和 记忆 方面 ， 
通过 对 大 脑 运行 过 程 的 精确 模拟 ,科学 家 还 可 以 揭 开 隐藏 在 精神 失常 背后 的 秘密 。 马 克 
菜 姆 带领 一 群 神经 科学 家 ,以 及 IBM 的 超级 计算 机 “ 蓝 色 基因 ”(Blue Gene) ,一 起 尝试 描 
绘 新 (大 脑 ) 皮 层 的 蓝图 。 作 为 大 脑 皮层 的 一 部 分 ,新 皮层 与 80% 的 人 脑 活 动 相关 (图 3-11) 。 
这 个 活跃 的 区 域 由 神经 元 和 神经 纤维 构成 的 密集 网 络 组 成 ,其 中 的 神经 元 和 神经 纤维 就 
是 我 们 熟知 的 灰质 ,因为 它们 在 处 理 过 的 大 脑 标本 中 是 灰色 的 。 许 多 高 级 的 认 知 功能 ,如 
意识 .记忆 和 沟通 ,都 和 这 个 区 域 相关 。 负 责 蓝 脑 计划 的 科学 家 宣称 ,他 们 有 望 在 2020 年 
左右 制造 出 科学 史上 第 一 台 会 “思考 ”的 机 器 , 它 将 可 能 拥有 感觉 、 痛苦、 愿望 甚至 丽 惧 感 。 

蓝 脑 计划 需要 进行 大 量 的 运算 。 作 家 乔 纳 。 菜 勒 描述 了 这 个 计划 中 的 技术 支持 
后 台 : 
在 瑞士 卢 塞 恩 某 大 学 的 地 下 室 里 , 放 着 四 个 冰箱 大 小 的 黑箱 ,每 个 箱子 里 都 按 行 排列 
装 满 了 2000 块 IBM 芯片 。 这 些 芯片 构成 了 功能 超 强 的 处 理 器 ,每 秒 能 处 理 22.8 万 亿 次 
旨 令 。 这 些 箱 子 不 可 移动 ,而 且 安 静 得 有 些 施 异 。 打 开 计 算 机 之 后 ,你 能 听 到 的 只 有 巨型 
空调 发 出 的 连续 呼吸 声 。 这 就 是 蓝 脑 。 

蓝 脑 计算 机 的 核心 设备 占据 的 空间 其 实 很 小 . 它 总 共 含 有 8096 块 处 理 器 ,每 块 处 理 
器 可 以 模拟 1 一 10 个 神经 元 。 整 套 系统 大 约 可 以 模拟 1 人 亿 个 简单 神经 元 ,相当 于 老鼠 大 
脑 中 所 包含 神经 元 数量 的 一 半 。IBM 表示 ,这 台 Blue Brain 仅仅 是 原型 产品 ,以 后 产品 
化 的 Blue Brain 将 可 以 模拟 10 亿 个 简单 神经 元 。2009 年 7 月 ,在 英国 剑桥 举办 的 主题 
为 “透视 本 质 ” 的 TEDGlobal 大 会 上 ,马克 菜 姆 雄心 勃勃 地 说 :“ 我 们 有 可 能 在 十 年 之 内 
制造 一 个 人 工大 脑 。” 

蓝 脑 是 一 个 令 人 难以 置信 的 大 胆 创 想 . 唯 有 人 类 基因 组 计划 (Human Genome 
Project,HGP) 能 与 之 媲美 。 人 类 基因 组 计划 是 一 个 全 球 性 项 目 , 旨 在 为 全 人 类 基因 组 制 
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图 3-11 蓝 脑 计划 
IBM 超级 计算 机 “ 蓝 色 基因 ”生成 的 模型 。 作 为 “ 蓝 色 计划 ”的 一 部 分 ,该 图 展现 了 在 单个 新 皮层 单 
元 中 的 12 万 个 神经 及 其 3000 万 个 连接 ,这 是 哺乳 动物 的 大 脑 中 最 复杂 的 一 部 分 。 不 同 颜色 的 线条 表 
示 不 同 的 脑 电波 频率 。 


图 和 排序 。 这 个 伟大 的 项 目 结果 何去何从 ,将 为 人 类 认 知 带 来 怎样 的 重大 突破 ,目前 还 不 
可 预知 。 我 们 首先 需要 绘制 出 整个 神经 网 络 图 ,然后 模拟 重 现 神经 网 络 的 运作 。 

目前 ,这 个 计划 迈 出 了 里 程 碑 式 的 第 一 步 一 一 绘制 新 皮层 单元 ,虽然 这 个 新 皮层 单元 
仅仅 是 大 脑 皮 层 中 的 很 小 一 部 分 ,包含 1 万 个 神经 元 以 及 约 3000 万 个 连接 。 当 被 问 及 如 
何 绘制 余下 的 组 织 时 ,马克 莱 姆 乐观 估计 道 ,“ 下 一 步 我 们 要 尝试 绘制 更 大 的 新 皮层 单 
元 。” 马 克 菜 姆 乐观 的 态度 来 自 于 “ 蓝 脑 计划 ”本 身 , 这 个 史无前例 的 计划 站 在 不 同 角度 重 
新 审视 了 人 类 和 科学 本 身 。 马 克 菜 姆 认为 ,仅仅 研究 某 些 单独 的 部 分 不 能 让 我 们 一 宝 全 
貌 , 还 原 论 者 使 用 的 研究 方法 ( 即 简化 法 ) 虽 仍 有 成 效 , 但 时 至 今日 已 慢 慢 褪去 光华 。“( 成 
功 绘制 新 皮层 单元 ) 并 不 意味 着 我 们 已 经 实现 了 项 目的 目标 ,我 们 要 做 的 还 有 很 多 ,大 脑 
还 有 很 多 的 未 解 之 迷 。 但 现在 我 们 面临 另 一 个 更 为 坏 手 的 问题 ,巨大 的 数据 量 将 要 把 我 
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们 海 没 。 许 多 科学 家 穷 其 一 生 只 研究 了 大 脑 中 的 菜 个 局 部 的 运作 细节 , 却 对 这 些 细节 如 
何 联 系 、 运 作 一 无 所 知 。 蓝 脑 计划 就 是 为 了 让 我 们 能 够 从 宏观 角度 看 问题 。” 

如 果 马 克 莱 姆 预测 正确 的 话 , 我 们 将 看 到 ,系统 化 的 思维 方式 将 取代 过 时 的 简化 法 ， 
其 他 的 科学 领域 将 开始 应 用 系统 化 的 建 模 方式 。 这 种 全 新 的 思维 方式 将 影响 科学 进步 ， 
这 上 比 蓝 脑 计划 本 身 更 具 重 要 意义 。 

蓝 脑 计划 将 有 助 于 理解 记忆 是 如 何 存储 和 提取 的 ,揭示 大 脑 中 很 多 激动 人 心 的 秘密 ， 
例如 记忆 的 形式 、 记 忆 的 容量 以 及 遗忘 的 原理 。 这 项 试验 还 将 帮助 科学 家 摘 清 楚 神 经 组 
织 的 脆弱 之 处 ,进而 理解 大 脑 功 能 素 乱 的 原理 ,以 此 来 治疗 孤独 症 、 精 神 分 裂 症 和 抑郁 症 
等 。 此 外 ,这 项 计划 如 果 成 功 ,很 多 脑 科学 试验 可 以 通过 计算 机 完成 。 一 项 脑 科 学 试验 如 
果 使 用 传统 方式 进行 可 能 需要 一 整 天 ,但 如 果 使 用 计算 机 模拟 的 大 脑 也 许 只 需要 几 秒 钟 
就 能 完成 。 

IBM 还 将 这 种 计算 技术 用 于 生命 科学 研究 ,他 们 甚至 认为 生物 科学 已 经 在 一 定 程度 
上 演化 成 了 信息 科学 , 蓝 脑 技术 的 发 展 将 会 揭示 生物 体 中 的 很 多 有 趣 现 象 ,必须 要 有 这 样 
足够 复杂 的 计算 机 系统 才能 模拟 生物 系统 。IBM 还 认为 蓝 脑 项 目 对 其 他 工业 和 科学 研 
究 领 域 的 带动 作用 将 会 非常 巨大 。 例 如 ,模拟 神经 网 络 行为 的 ASIC 设计 方案 将 来 可 能 
会 应 用 于 智能 设备 的 信息 处 理 。 另 外 ,从 更 一 般 的 意义 上 说 , 蓝 脑 将 推动 实时 数据 处 理 的 
发 展 ,而 与 实时 数据 处 理 对 应 的 是 离线 数据 处 理 。 

而 IBM 研究 院 蓝 脑 项 目的 负责 人 Charles Peck 认为 ,模拟 大 脑 的 真正 价值 在 于 研究 
人 员 可 以 获得 每 个 神经 元 的 数据 。“ 虽 然 科 学 家 对 大 脑 的 很 多 细节 已 经 非常 了 解 , 但 是 他 
们 仍然 不 知道 大 脑 各 个 组 成 部 分 之 间 的 结合 方式 ,也 不 知道 大 脑 如 何 思 考 、 如 何 学 习 以 及 
如 何 形成 概念 ”, 他 说 ,其 意 在 这 项 研究 可 以 真正 拉 近 电脑 与 人 脑 之 间 的 距离 。 

资料 来 源 : [ 美 ] Manuel Lima 著 , 杜 明 翰 , 陈 楚 君 译 .《 视 觉 繁 美 一 一 信息 可 视 化 方法 与 案例 解析 》. 
北京 : 机 械 工业 出 版 社 ,2013, 节 选 


【实验 与 思考 】 


大 数据 分 析 的 领军 企业 Teradata 
1. 实验 目的 


(1) 深刻 理解 2012 年 作为 大 数据 元 年 的 内 涵 ; 

(2) 通过 网 络 搜索 ,了 解 大 数据 领域 的 领军 企业 Teradata, 并 由 此 进一步 熟悉 大 数据 
分 析 与 可 视 化 的 专业 市 场 ; 

(3) 熟悉 大 数据 分 析 、 处 理 和 可 视 化 应 用 的 主要 方法 。 


2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


3. 实验 内 容 与 步骤 


Teradata ,全称 为 Teradata 天 赛 公 司 , 是 美国 前 十 大 上 市 软件 公司 之 一 ,为 全 球 最 大 


攻 










的 专注 于 大 数据 分 析 、 数 据 仓 库 和 整合 营销 管理 解决 方案 的 供应 商 , 成 立 于 1979 年 ,总 部 
位 于 美国 俄 记 俄 州 代 顿 市 。Teradata 天 害 公 司 基于 客户 需求 ,提供 领先 、 全 面 有 效 的 解 
决 方案 ,帮助 企业 获取 商业 洞察 力 , 并 且 把 数量 庞大 、 增 长 迅猛 ,种 类 多 样 的 数据 等 问题 转 
化 为 行动 力 , 创 造 商业 价值 。 

(1) 请 通过 网 络 搜索 ,了 解 主流 大 数据 软件 供应 商 Teradata 公司 的 基本 情况 ,并 简 
单 记录 。 

答 : 




















(2) 在 大 数据 分 析 领 域 ,Teradata 公司 主要 有 哪些 产品 ? 
答 : 

















(3) 请 分 析 Teradata 的 主要 产品 并 记录 。 
Teradata 数据 仓库 : 














Teradata Aster: 

















Teradata 统一 数据 架构 (UDA): 




















Teradata 应 用 解决 方案 : 
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(4) 文中 提 到 数据 可 视 化 的 5 个 方面 ,你 认为 Teradata 公司 属于 其 中 的 哪 一 种 类 型 ? 
为 什么 ? 
:3 


: 

















(5) 请 登录 Teradata 天 害 公 司 官网 (www. teradata. com, 图 3-12),. 了解 .熟悉 大 数据 





领域 的 领军 企业 ,了 解 大 数据 分 析 与 可 视 化 的 市 场 与 社会 ,并 简单 记录 你 的 想法 。 
CE 
TERADATA Raetne shuae On Demen 本 局 


源 中 必 寻求 支持 


我 们 帮助 全 取 最 大 价值 








图 3-12 Teradata 官网 
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4. 实验 总 结 

















5. 实验 评价 (教师 ) 
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【导读 案例 】 
亚 马 迎 公 林 的 变迁 


亚 马 进 盆地 位 于 南美 洲 北部 ,包括 巴西 等 六 个 国家 的 广大 地 区 。 亚 马 过 雨林 是 世界 
上 最 大 的 热带 雨林 ,其 面积 比 整个 欧洲 还 要 大 ,有 700 万 平方 千 米 , 占 地 球 上 热带 雨林 总 
面积 的 50% ,其 中 有 480 万 平方 公里 在 巴西 境内 , 它 从 安第斯 山脉 低 坡 延伸 到 巴西 的 大 
西洋 海岸 (图 4-1) 。 





图 4-1 亚马逊 雨林 


亚马逊 雨林 对 于 全 世界 以 及 生存 在 世界 上 的 一 切 生 物 的 健康 都 是 至 关 重 要 的 。 树 林 
能 够 吸收 二 氧化 碳 (CO2) ,而 二 氧化 碳 和 气体 的 大 量 存 在 会 使 地 球 变 暖 危害 气候 ,以 致 极 
地 冰 盖 融化 ,引起 洪水 泛滥 。 树 木 也 产生 和 氧气, 它 是 人 类 及 所 有 动物 的 生命 所 必需 的 。 有 
些 雨林 的 树木 长 得 极 高 , 达 60 米 以 上 。 它 们 的 叶子 形成 “ 篷 ”", 像 一 把 雨伞 ,将 光线 挡住 。 
因此 树 下 几乎 不 生长 什么 低 矮 的 植物 。 这 里 自然 资源 丰富 ,物种 繁多 ,生态 环境 纷繁 复 
杂 , 生 物 多 样 性 保存 完好 ,被 称 为 “生物 科学 家 的 天 堂 ”。 

然而 , 亚 马 进 热带 雨林 却 并 没有 因为 它 的 富有 而 得 到 人 类 的 厚爱 。 人 们 从 16 世纪 开 
始 开发 森林 。1970 年 ,巴西 总 统 为 了 解决 东北 部 的 贫困 问题 ,又 做 出 了 一 个 最 可 悲 的 决 
策 一 一 开发 亚马逊 地 区 。 这 一 决策 使 该 地 区 每 年 约 有 8 万 平方 公里 的 原始 森林 遭 到 破 
坏 ,1969 一 1975 年 ,巴西 中 西部 和 亚马逊 地 区 的 森林 被 毁 掉 了 11 万 多 平方 公里 ,巴西 的 
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森林 面积 同 400 年 前 相 比 ,整整 减少 了 一 半 ( 图 4-2)。 





图 4-2 ”亚马逊 丛林 30 年 变迁 


热带 雨林 的 减少 主要 是 由 于 烧荒 耕作 ,此 外 还 有 过 度 采 伐 、 过 度 放 牧 和 森林 火灾 等 ， 
这 使 整个 热带 森林 减少 面积 的 50 中 。 在 坚 荒 过 程 中 ,人 们 把 重型 拖拉 机 开 进 亚马逊 森 
林 , 把 树木 砍 倒 , 再 放火 焚烧 。 

热带 雨林 的 减少 不 仅 意 味 着 森林 资源 的 减少 ,而 且 意 味 着 全 球 范围 内 的 环境 恶化 。 
因为 森林 具有 涵养 水 源 、 调 节气 候 、 消 减 污 染 、 减 少 嗓音 .减少 水 土 流失 及 保持 生物 多 样 性 
的 功能 。 

热带 雨林 像 一 个 巨大 的 吞吐 机 ,每 年 吞噬 全 球 排放 的 大 量 的 二 和 氧化 碳 , 又 制造 大 量 的 
氧气 , 亚 马 过 热带 雨林 由 此 被 誉 为 “地 球 之 肺 ”, 如 果 亚 马 进 的 森林 被 砍伐 歼 尽 ,地 球 上 维 
持 人 类 生存 的 氧气 将 减少 1/3。 

热带 雨林 又 像 一 个 巨大 的 抽水 机 ,从 土壤 中 吸取 大 量 的 水 分 ,再 通过 蒸腾 作用 ,把 水 
分 散发 到 空气 中 。 另 外 ,森林 土壤 有 良好 的 渗透 性 ,能 吸收 和 滞 留 大 量 的 降水 。 亚 马 过 热 
带 雨 林 储蓄 的 淡水 占 地 表 淡 水 总 量 的 23 听 。 森 林 的 过 度 艳 伐 会 使 土壤 侵蚀 、 土 质 沙 化 ， 
引起 水 土 流失 。 巴 西 东 北部 的 一 些 地 区 就 因为 毁 掉 了 大 片 的 森林 而 变 成 了 巴西 最 干旱 、 
最 贫穷 的 地 方 。 在 秘鲁 ,由 于 森林 遭 到 破坏 ,1925 一 1980 年 间 就 爆发 了 4300 次 较 大 的 泥 
石 流 、193 次 滑坡 ,直接 死亡 人 数 达 4. 6 万 人 。 目 前 ,每 年 仍 有 0. 3 万 平方 公里 土地 的 
20 厘米 厚 的 表土 被 冲 入 大 海 。 

除 此 之 外 ,森林 还 是 巨大 的 基因 库 , 地 球 上 约 1000 万 个 物种 中 ,有 200 万 一 400 万 种 
都 生存 于 热带 、 亚 热带 森林 中 。 在 亚 马 示 河流 域 的 仅 0. 08 平方 公里 左右 的 取样 地 块 上 ， 
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就 可 以 得 到 4.2 万 个 昆虫 种 类 , 亚 马 示 热带 雨林 中 每 平方 公里 不 同 种 类 的 植物 达 1200 多 
种 ,地 球 上 动 植物 的 1/5 都 生长 在 这 里 。 然 而 由 于 热带 雨林 的 砍伐 ,那里 每 天 都 至 少 消失 
一 个 物种 。 有 人 预测 , 随 着 热带 雨林 的 减少 ,许多 年 后 ,至 少将 有 50 万 一 80 万 种 动 植物 
种 类 灭绝 。 雨 林 基 因 库 的 丙 失 将 成 为 人 类 最 大 的 损失 之 一 。 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 湿地 有 强大 的 生态 净化 作用 ,因而 又 有 “地 球 之 肾 ” 的 美 名 。 请 通过 网 络 搜索 学 
习 , 了 解 湿 地 对 自然 的 意义 ,并 简单 记录 。 

答 : 




















(2) 请 通过 网 络 搜索 学 习 , 了 解 亚 马 逊 丛林 对 全 人 类 的 意义 ,并 简单 记录 。 
答 : 

















(3) 图 4-2 以 地 图 数据 可 视 化 方式 形象 地 表现 了 亚马逊 丛林 的 变迁 ,请 简单 分 析 在 
这 个 案例 中 文字 描述 与 数据 可 视 化 方法 的 不 同 。 
答 : 














(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 




















41 Bcd 的 函数 与 图 表 
电子 表格 软件 (如 Microsoft Excel、iWorks Numbers、Google Docs Spreadsheets 或 


Libre Office Calc) 提 供 了 创建 电子 表格 的 工具 。 它 就 像 一 张 “聪明 ”的 纸 , 可 以 自动 计算 
上 面 的 整 列 数字 ,还 可 以 根据 用 户 输入 的 简单 等 式 或 者 软件 内 署 的 更 加 复杂 的 公式 进行 


大 上 财 电 加 钢 比 


其 他 计算 。 另 外 ,电子 表格 软件 还 可 以 将 数据 转换 成 各 种 形式 的 彩色 图 表 , 它 有 特定 的 数 
据 处 理 功能 ， 例如 为 数据 排序 、 三 我 注 是 铂 企 迷 准 的 数 基 以 及 打印 报表 汪 。 
支 报表 .资产 负债 表 和 贷款 还 款 计 划 ,还 可 以 在 Web 上 而 到 其 他 宰 板 。 a 般 由 
专业 人 员 设 计 , 里 面包 含 所 有 必要 的 标签 和 公式 。 使 用 模板 时 ,只 需 填 人 数值 就 可 进行 
计算 。 

Excel 是 目前 最 受 欢迎 的 办 公 套 件 Microsoft Office 的 主要 成 员 之 一 , 它 在 数据 管 
理 、 自 动 处 理 和 计算 、 表 格 制作 、 图 表 绘 制 以 及 金融 管理 等 许多 方面 都 有 独到 之 处 。 

以 Microsoft Office Excel 2013 中 文 版 为 例 , 在 Windows“ 开 始 ”" 菜 单 中 单 击 Excel 
2013 选项 ,屏幕 显示 的 Excel 工作 界面 如 图 4-3 所 示 , 从 上 到 下 ,依次 是 标题 栏 .菜单 栏 、 
常用 工具 栏 ,格式 栏 编辑 栏 , 最 后 一 行 是 状态 行 。 


































































国 日 后 "GO-s 工作 往 1 - Excel 和 = 

区 一 和 A i a 到 大 。 二 网 视 加。 久 才 出 式 。 里 队 sa 

ii 3 | 宁 洒 -| 第 规 | 蝎 条 从 格式 ~ 周 拓 和 - 三- 和 r 

ow TURK 宝 - % ， 肘 雪 用 表格 格式 ” 圳 ' 凡 除 - 国 - 的 

1 >| 每 = PR ee 各 ~ 袍 六 吸 单 元 格 样式 前 格 式 过 

9 | 对 样式 元 粘 

6 加 
B 昌 D E F 自 

1 当前 值 方案 1 方案 2 

2 | 预期 收入 〈 取 自 收入 总 额 选 项 》 ¥486, 000. 00 =¥972, 000. 00 ¥243, 000, 00 - 一 

3 | 咖啡 的 成 本 等 《 取 自 总 成 本 选项 》 ¥130, 000. 00  ¥130, 000.00 #130, 000, 00.<_| 这些 单元 格 中 

4 |IY ¥120, 000. 00  ¥120, 000. 00 #120, 000. 00 | 的 值 可 用 于 计算 

5 | 租金 ea ¥36, 000. 00 ¥36, 000. 00 

6 告 ¥100, 000. 00 ¥100, 000. 00 

7 | 电话 费 ¥2, 760. 00 ¥2, 760. 00 

8 | 水 电费 ¥6, 600. 00 ¥6, 600. 00 ¥6, 600. 00 

9 | 保险 费 ¥1, 080.00。  ¥%1, 080..00, ¥1, 080. 00 

10 | 预计 开支 9 0 ¥396, 440. 00 ¥396, 440. 00 

11 收入 ¥575, 560. 00 ¥-153, 440. 00 

12 

13 

14 

15 此 单元 格 中 的 公式 会 从 

的 收入 中 减 去 支出 ， 从 而 计 = 

| Sheet1 | 四 算出 利润 百 TD 








图 4-3 Office Excel 2013 操作 界面 


4.1.1 Excel 函数 


Excel 的 函数 功能 作为 其 数据 处 理 的 重要 手段 之 一 .在 生活 和 工作 实践 中 可 以 有 
多 种 应 用 ,用 户 甚至 可 以 用 Excel 来 设计 复杂 的 统计 管理 表格 或 者 小 型 的 数据 库 
Excel 的 函数 实际 上 是 一 些 预定 义 的 公式 计算 程序 ,它们 使 用 一 些 称 为 参数 的 数值 ， 
按 特定 的 顺序 或 结构 进行 计算 。 用 户 可 以 直接 用 它们 对 某 个 区 域内 的 数值 进行 一 系列 运 
算 , 如 分 析 和 处 理 日 期 值 和 时 间 值 .确定 贷款 的 支付 额 . 确 定单 元 格 中 的 数据 类 型 .计算 平 
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均值 .排序 显示 和 运算 文本 数据 等 。 例 如 用 SUM 函数 对 单元 格 或 单元 格 区 域 进行 加 法 
运算 。 

(1) 参 数 。 可 以 是 数字 、 文 本 、 形 如 TRUE 或 FALSE 的 逻辑 值 . 数 组 、 形 如 #NV/A 的 
错误 值 或 单元 格 引 用 等 ,给 定 的 参数 必须 能 产生 有 效 的 值 。 参 数 也 可 以 是 常量 、 公 式 或 其 
他 函数 ,还 可 以 是 数组 .单元 格 引用 等 。 

(2) 数组 。 用 于 建立 可 产生 多 个 结果 或 可 对 存放 在 行 和 列 中 的 一 组 参数 进行 运算 的 
单个 公式 。 在 Excel 中 有 区 域 数组 和 常量 数组 两 类 数组 ,区 域 数组 是 一 个 矩形 的 单元 格 
区 域 , 该 区 域 中 的 单元 格 共用 一 个 公式 ;常量 数组 将 一 组 给 定 的 常量 用 作 某 个 公式 中 的 
参数 。 

(3) 单元 格 引用 。 用 于 表示 单元 格 在 工作 表 所 处 位 置 的 坐标 值 。 例 如 ,显示 在 第 B 
列 和 第 3 行 交 叉 处 的 单元 格 ,其 引用 形式 为 B3( 相 对 引用 ) 或 $B$3( 绝 对 引用 ) 。 

(4) 常量 。 是 直接 输入 到 单元 格 或 公式 中 的 数字 或 文本 值 ,或 由 名 称 所 代表 的 数字 
或 文本 值 。 例 如 ,日 期 8/8/2014、 数 字 210 和 文本 Quarterly Earnings 都 是 常量 。 公 式 或 
由 公式 得 出 的 数值 都 不 是 常量 。 

一 个 函数 还 可 以 是 另 一 个 函数 的 参数 ,这 就 是 嵌 套 函数 。 所 谓 嵌 套 函 数 , 是 指 在 某 些 
情况 下 ,可 能 需要 将 某 函 数 作 为 男 一 函数 的 参数 使 用 。 例 如 图 4-4 中 所 示 的 公式 使 用 了 
骸 套 的 AVERAGE 函数 ,并 将 结果 与 50 相 比 较 。 这 个 公式 的 含义 是 : 如 果 单 元 格 F2 到 
F5 的 平均 值 大 于 50, 则 求 G2 到 G5 的 和 ,否则 显示 数值 0。 

如 图 4-5 所 示 ,函数 的 结构 以 函数 名 称 开始 ,后 面 是 左 圆 括号 、 以 逗号 分 隔 的 参数 和 
右 贺 括号。 如果 函 数 以 公式 的 形式 出 现 . 则 应 在 函数 名 称 前 面 输入 等 号 (二 )。 

等 号 (如 果 此 函数 位 于 公式 开始 位 置 ) 


| 函数 名 称 
馈 套 函数 | B5:B10, 50, 37) 
各 参数 之 间 用 逗号 分 隔 
=IF(AVERAGE(F2:F5)>50, SUM(G2:G5), 0) 参数 用 括号 括 起 
图 4-4 嵌 套 函数 图 4-5 函数 的 结构 


单 击 工具 栏 中 的 “插入 公式 ?按钮 ,会 出 现 * 插 人 函数 "对 话 框 ( 图 4-6)。 可 在 对 话 框 
或 编辑 栏 中 创建 或 编辑 公式 ,还 可 提供 有 关 函 数 及 其 参数 的 信息 。 

Excel 2013 函数 一 共有 13 类 ,分 别 是 数据 库 函 数 、 日 期 与 时 间 函 数 、 工 程 函 数 、 财 务 
函数 、 信 息 函 数 、 届 辑 函数 、 查 找 与 引用 函数 、 数 学 和 三 角 函 数 、 统 计 函 数 、 文 本 函数 .多维 
数据 集 函 数 .兼容 性 函数 和 Web 函数 。 


4.1.2 Excel 图表 
Excel 的 数据 分 析 图 表 可 用 于 将 工作 表 数 据 转换 成 图 片 , 具 有 较 好 的 可 视 化 效果 ,可 
以 快速 表达 绘制 者 的 观点 ,方便 用 户 查看 数据 的 差异 .图 案 和 预测 趋势 等 。 例 如 ,用 户 不 
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图 4-6 插入 与 编辑 函数 


必 分 析 工 作 表 中 的 多 个 数据 列 就 可 以 立即 看 到 各 个 季度 销售 额 的 升降 ,或 很 方便 地 对 实 
际 销售 额 与 销售 计划 进行 比较 (图 4-7)。 
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图 4-7 Excel 图 表示 例 


用 户 可 以 在 工作 表 上 创建 图 表 , 或 将 图 表 作 为 工作 表 的 戏 人 对 象 使 用 ,也 可 以 在 网 页 


上 发 布 图表 。 
为 创建 图 表 , 需 要 先 在 工作 表 中 为 图 表 输 入 数据 ,然后 按 以 下 步骤 进行 操作 。 


步骤 1: 选择 要 为 其 创建 图 表 的 数据 (图 4-8) 。 
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图 4-8 选择 数据 


步骤 2: 单 击 “ 插 入 "菜单 中 的 “推荐 的 图 表 ”。 在 “推荐 的 图 表 ” 选 项 卡 ( 图 4-9) 
上 ,滚动 浏览 Excel 为 用 户 数据 推荐 的 图 表 列 表 , 然 后 单 击 任意 图 表 以 查看 数据 的 呈 
现 效果 。 
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图 4-9 “推荐 的 图 表 ” 选 项 


如 果 没 有 看 到 自己 喜欢 的 图 表 , 可 单 击 “ 所 有 图 表 ” 以 查看 可 用 的 图 表 类 型 (图 4-10)。 

步骤 3: 找到 所 要 的 图 表 时 , 单 击 该 图 表 . 然 后 单 击 “ 确 定 ” 按 钮 。 

步骤 4: 使 用 图 表 右 上 角 附 近 的 “图 表 元 素 " “图表 样式 和”* 图 表 钥 选 器 ”按钮 
(图 4-11) ,添加 坐标 轴 标 题 或 数据 标签 等 图 表 元 素 , 自 定义 图 表 的 外 观 或 更 改 图 表 中 显 
示 的 数据 。 

步骤 5: 若 要 访问 其 他 设计 和 格式 设置 功能 ,可 单 击 图 表 中 的 任何 位 置 将 “图 表 工具 ” 
添加 到 功能 区 ,然后 在 “设计 ”和 “格式 ”选项 卡 上 单 击 所 需 的 选项 (图 4-12) 。 
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4-10 在 “所 有 图 表 ” 中 选择 
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图 4-12 图 表 工 具 


各 种 图 表 类 型 提供 了 一 组 不 同 的 选项 。 例 如 ,对 于 簇 状 柱 形 图 而 言 ,包括 如 下 


选项 。 
实验 确认 : 口 








学 生 








教师 





(1) 网 格 线 : 可 以 在 此 处 隐藏 或 显示 贯穿 图 表 的 线条 。 
(2) 图 例 : 可 以 在 此 处 将 图 表 图 例 放 置 于 图 表 的 不 同位 置 。 
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(3) 数据 表 : 可 以 在 此 处 显示 包含 用 于 创建 图 表 的 所 有 数据 的 表 。 用 户 也 可 能 需要 
将 图 表 放 置 于 工作 德 中 的 独立 工作 表 上 ,并 通过 图 表 查 看 数据 。 

(4) 坐标 轴 : 可 以 在 此 处 隐藏 或 显示 沿 坐标 轴 显 示 的 信息 。 

(5) 数据 标志 : 可 以 在 此 处 使 用 各 个 值 的 行 和 列 标题 (以 及 数值 本 身 ) 为 图 表 加 上 标 
签 。 这 里 要 小 心 操作 ,因为 很 容易 使 图 表 变 得 混乱 并 且 难 于 阅读 。 

(6) 图 表 位 置 : 如 “作为 新 工作 表 插 入 ”或 者 “作为 其 中 的 对 象 插入 ”。 


4.1.3 选择 图 表 类 型 


工作 中 经 常 使 用 柱 形 图 和 条 形 图 来 表示 产品 在 一 段 时 间 内 的 生产 和 销售 情况 的 变化 
或 数量 的 比较 ,如 表示 分 季度 产品 份额 的 柱 形 图 就 显示 了 各 个 品牌 的 市 场 份额 的 比较 和 
变化 。 

如 果 要 体现 的 是 一 个 整体 中 每 一 部 分 所 占 的 比例 (例如 市 场 份 额 ) 时 ,通常 使 用 “ 饼 
图 ”"。 此 外 ,比较 常用 的 就 是 折线 图 和 散 点 图 了 ,折线 图 通常 也 用 来 表示 一 段 时 间 内 某 种 
数值 的 变化 ,常见 的 如 股票 价格 的 折线 图 等 。 散 点 图 主要 用 在 科学 计算 中 ,例如 可 以 使 用 
正弦 和 余弦 曲线 的 数据 来 绘制 出 正弦 和 余弦 曲线 。 

为 选择 正确 的 图 表 类 型 ,可 按 以 下 步骤 操作 。 

步骤 1: 选 定 需要 绘制 图 表 的 数据 单元 ,在 “插入 "菜单 中 单 击 “ 推 荐 的 图 表 ” 选 项 , 打 
开 “ 插 入 图 表 ” 对 话 框 (图 4-13)。 
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图 4-13 ”Excel* 插 入 图 表 ” 对 话 框 
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图 4-13 ( 续 ) 


步骤 2: 在 “插入 图 表 ” 对 话 框 * 所 有 图 表 ” 选 项 卡 的 左 窗 格 中 单 击 选择 “XY( 散 点 图 )” 
选项 ,在 右 窗 格 中 选择 “ 带 平 滑 线 的 散 点 图 "(图 4-14)。 
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图 4-14 ”选择 散 点 图 


第 (4 人 齐 1Exeej 数 所 可 掀 化 让 法 


步骤 3: 单 击 “确定 ?按钮 ,完成 散 点 图 绘制 (图 4-15) 。 























四 B C 5 E F 3 H I 
1 医 三 月 三 月 
2 | 70 160 300| 
3 | 175 420 290| 
4 | 150 180 196! 
5 | t 
| | | 
6 | | 图 表 标 题 Ht 
| | 一 一 系列 ! 一 一 系列 2 一 一 系列 3 Ea 
10| | 加 ga 
11 | eo | 
12| | 9 | 
13 300 
14 | | za | 
15 | | zm | 
16 | | 150 | 
17 | | am 
18 | 50 | 
19| | 
20 | 0 0.5 3 4.5 2 2.5 3 3.5 





图 4-15 绘制 散 点 图 
对 于 大 部 分 二 维 图 表 , 既 可 以 更 改 数据 系列 的 图 表 类 型 ,也 可 以 更 改 整 张 图 表 的 图 表 
类 型 。 对 于 气泡 图 ,只 能 更 改 整 张 图 表 的 类 型 。 对 于 大 部 分 三 维 图 表 , 更 改 图 表 类 型 将 影 
响 到 整 张 图 表 。 

















实验 确认 : 口 学生 教师 

所 谓 "数据 系列 ?是 指 在 图 表 中 绘制 的 相关 数据 点 ,这 些 数 据 源 自 数据 表 的 行 或 列 。 
图 表 中 的 每 个 数据 系列 具有 唯一 的 颜色 或 图 案 ,并且 在 图 表 的 图 例 中 表示 。 可 以 在 图 表 
中 绘制 一 个 或 多 个 数据 系列 。 饼 图 只 有 一 个 数据 系列 。 对 于 三 维 条 形 图 和 柱 形 图 ,可 以 
将 有 关 数 据 系 列 更 改 为 圆锥 、 圆 柱 或 棱锥 图 表 类 型 。 

步骤 1: 若 要 更 改 图 表 类 型 ,可 单 击 整 张 图 表 或 单 击 某 个 数据 系列 。 

步骤 2: 在 右键 菜单 中 单 击 “ 更 改 图 表 类 型 "命令 。 

步骤 3: 在 “所 有 图 表 ” 卡 上 单 击 选择 所 需 的 图 表 类 型 。 

步骤 4: 若 要 对 三 维 条 形 或 柱 形 数据 系列 应 用 圆锥 、 圆 柱 或 棱锥 等 图 表 类 型 ,可 在 “所 
有 图 表 ” 选 项 卡 中 单 击 “圆柱 图 "“ 圆 锥 图 ?或 “棱锥 图 ”。 




















实验 确认 : 口 学 生 教师 





42 整理 数据 源 


大 数据 时 代 , 面 对 如 此 浩瀚 的 数据 海洋 ,我 们 如 何 才 能 从 中 提炼 出 有 价值 的 信息 
呢 ? 其 实 , 任 何 一 个 数据 分 析 人 员 在 做 这 方面 工作 时 ,都 是 先 获 得 原始 数据 ,然后 对 原 
始 数据 进行 整合 处理, 再 根据 实际 需要 将 数据 集合 。 只 有 这 样 层 层 递 进 才能 挖掘 原 
始 数 据 中 潜在 的 商业 信息 ,也 只 有 这 样 才 能 掌握 目标 客户 的 核心 数据 ,为 企业 创造 更 
多 的 价值 。 





攻 


4.2.1 数据 提炼 


我 们 先 来 认识 数据 集成 的 含义 ,数据 集成 是 把 不 同 来 源 、 格 式 、 特 点 ,性质 的 数据 在 多 
辑 上 或 物理 上 有 机 地 集中 ,从 而 为 企业 提供 全 面 的 数据 共享 。 在 Excel 中 ,用 户 可 以 执行 
数据 的 排序 .筛选 和 分 类 汇总 等 操作 。 数 据 排序 就 是 指 按 一 定 规则 对 数据 进行 整理 、 排 
列 ,为 数据 的 进一步 处 理 做 好 准备 。 

实例 4-1 2016 年 福特 汽车 销量 情况 。 

根据 每 月 记录 的 不 同 车 型 销量 情况 ,评判 2016 年 前 5 个 月 哪 种 车 型 最 受 大 众 青睐 ， 
以 此 向 更 多 客户 推荐 合适 的 车 型 。 

步骤 1: 获取 原始 数据 。 图 4-16(a) 是 一 份 从 网 站 中 导入 且 经 过 初始 化 后 的 销售 数 
据 , 从 表格 中 可 以 读 出 简单 的 信息 ,比如 不 同 车 型 每 月 的 具体 销量 。 





A B E E 6 六 g E © 
1| 2016 年 福特 汽车 2016 年 福特 汽车 销售 情况 

2 表 | 骨 ， 表 | 明 二 | 绷 | 银 | 员 | 肖 

3 | 加 二 T7201 7404 7406 6935 | 要 1 | 225| 20| Ea 74| 

3 io T1393 ili02 12107 3 915] 1304) 12n| 1307 

5 | 要 柯 昕 225 uo 四 对 | 晰 嘉 年 中 西 妆 54 320 324 3 

6 新 嘉年华 -两 由 3344 3220 3243 3758 | 新 嘉年华 三 册 3202, 4811 3065 | 6201 

7 新 嘉年华 三 而 3202| 4811 5065 6201 | 要 博 T7201 7404 a 6935| 

8 | 福 克 电 9955 10207 10006 11904 | 证 殉 时 本 本 

9 致胜 1075| 1304 1271 1367 | 村 大 10901 11393 1202 12107] 














(a) (b) 





(9) 
图 4-16 


步骤 2: 排序 数据 。 将 月 份 销量 进行 升序 排列 , 即 选 定 G3 单元 格 ,然后 在 “数据 ?选项 
卡 下 的 “排序 和 筛选 ”组 中 单 击 “ 升 序 '” 按 钮 ,数据 将 自动 按 从 小 到 大 排列 (图 4-16(b) ) 。 

步骤 3: 制作 图 表 。 先 选取 A3:A9 单元 格 区 域 .然后 按 住 Ctrl 键 的 同时 选取 G3:G9 
单元 格 区 域 , 在 “插入 ”选项 卡 下 插入 图 表 , 接 着 选择 徐 状 条 形 图 ,系统 就 按 数 据 排列 的 顺 
序 生成 有 规律 的 图 表 ( 图 4-16(c))。 





实验 确认 : 口 学 生 教师 














实例 4-2 产品 月 销售 情况 。 

自动 筛选 一 般 用 于 简单 的 条 件 筛选 ,筛选 时 将 不 满足 条 件 的 数据 暂时 隐藏 起 来 ,只 显 
示 符 合 条 件 的 数据 。 高 级 筛选 一 般 用 于 条 件 较 复 杂 的 筛选 操作 ,其 筛选 的 结果 可 显示 在 
原 数 据 表格 中 ,可 以 在 新 的 位 置 显示 筛选 结果 ,不 符合 条 件 的 记录 同时 保留 在 数据 表 中 而 


饼 网 这 二 二 区 二 可 击 相 记过 


不 会 被 隐藏 起 来 。 

本 例 中 ,统计 某 月 不 同系 列 的 产品 的 月 销量 和 月 销售 额 , 观 察 销 售 额 在 25 000 以 上 
的 产品 系列 。 在 保证 不 亏损 的 情况 下 ,扩展 产品 系列 的 市 场 。 

步骤 1: 统计 月 销售 数据 。 将 产品 的 销售 情况 按 月 份 记录 下 来 ,然后 抽取 某 月 的 销售 
数据 来 调研 (图 4-17(a) ) 。 

















& B C & B C 
站 | xxx 公 司 产品 月 销售 情况 xxx 公 司 产品 月 销售 情况 
2。 | 产品 系列 | ”单价 ”| 销售 量 | ”销售 客 产品 系列 上 单价 请 | 销售 星 =] ”销售 额 | 
3 |A 199| 56| 11144 B 255 102 26010 
4 AI 219| 45| 9855 B2 333| 76 25308 
5 |A2 249 40， 9960 日 308, 38 27104 
6 lB 255| 102 26010 D 399 76 30324 
7 Bl | 288 85 24480| 
8 |B2 333| 76| 25308 (b) 
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图 4-17 


步骤 2: 筛选 数据 。 单 击 “ 销 售 额 ” 栏 目 ,选择 “数据 ”~* 旬 选 ", 利 用 筛选 功能 下 的 “数字 
筛选 ", 从 其 下 拉 菜单 中 选择 大 于 等 于 条 件 , 设 置 大 于 等 于 25 000 的 筛选 条 件 ( 图 4-17(b))。 
步骤 3: 制作 图 表 。 将 筛选 出 的 产品 系列 和 销售 额 数据 生 成 图 表 ,系统 默认 结果 为 大 

于 等 于 25 000 的 产量 系列 ,以 只 针对 满足 条 件 的 产品 进行 分 析 ( 图 4-17(c) ) 。 
实验 确认 : 口 学 生 口 教 师 





实例 4-3 公司 货物 运输 费 情况 表 。 

在 对 数据 进行 分 类 汇总 前 ,必须 确保 分 类 的 字段 是 按照 某 种 顺序 排列 的 ,如 果 分 类 的 
字段 杂乱 无 序 , 分 类 汇总 将 会 失去 意义 。 

在 本 实例 中 .假设 总 公司 从 库房 向 成 华 店 、 金 牛 店 和 锦江 店 的 卖点 运送 货物 ,记录 在 运 
输 的 过 程 中 产生 的 汽车 运输 费 和 人 工 搬 运费 ,通过 分 类 汇总 制作 三 个 卖点 的 运输 费 对 比 图 。 

步骤 1: 排序 关键 字 。 见 图 4-18(a) , 单 击 * 送 达 店铺 ? 栏 , 再 单 击 “数据 ?选项 卡 下 “ 排 





天 茹 电 可 钢 生 


序 和 筛选 "组 中 的 “排序 ”按钮 ,打开 “排序 ”对 话 框 ,设置 “ 送 达 店铺 ”关键 字 按 “升序 ”排序 。 













































































Di Br Es Es ES se se 5 
1 xxx 公 司 货 物 运输 费 
2 | 商品 编码 ， 送 达 店 铺 ， 汽车 运输 时 。 人 工 搬运 费 
成 华 店 650 200 
4 A FE c I 成 华 店 650 300| 
可 | xxx 公 司 货物 运输 费 成 华 店 650 180 
2 | 商品 编码 ， 送 达 店 铺 ， 汽车 运输 昌 。 人 工 搬运 费 成 华 店 650 230| 
8 | JK001 | 成 毕 店 650 200 成 华 店 650 380 
Le JK005 | 成 华 店 650 300| 0 3250 1290| 
下 | JK006 成 华 店 650 180| 金牛 店 600 260 
[二 | Jkoo2 成 华 店 650 230| 金牛 店 600 220| 
地 | JK008 ”| 成 毕 店 650 380| 全 和 牛 店 600 200 
[a8) JKool 金牛 店 600 260 金牛 店 600 195 
9 | JKo08 金牛 店 500 220| 金牛 店 600 160| 
|10| Jk005 | 爹 店 600 | 200| 金牛 店 600 260 
11| JK006 金牛 店 600 195| 0 3600 1295 
去 | JK002 金牛 店 600 160| 锦江 店 700 260| 
I13) JK004 金牛 店 600 260 锦江 店 700 180 
14| JK006 锦江 店 700 260 0 1400 440 
15| 。 Jkool 锦江 店 700 180 0 8250 3025 
(a) (b) 
4000 
3500 
3000 
2500 -| 
2000 -| 日 汽车 运输 里 
| 人 工 挫 运 费 
1000 
500 
oj 
成 华 店 汇总 金牛 店 汇 总 锦江 店 汇总 
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图 4-18 


步骤 2: 分 类 汇总 。 同 样 在 “数据 ”选项 卡 下 , 单 击 “ 分 级 显示 ”组 中 的 “分 类 汇总 ” 按 

钮 ,打开 “分 类 汇总 ”对 话 框 。 然 后 ,设置 分 类 字段 为 “ 送 达 店铺 ”, 汇 总 方式 为 “ 求 和 ”, 在 
“ 选 定 汇总 项 ”列表 中 色 选 “汽车 运输 费 * 和 “人 工 搬运 费 *( 图 4-18(b))。 

步骤 3: 制作 图 表 。 单 击 分 类 汇总 后 按 左上 角 的 级 别 2 按钮 ,选取 各 地 区 的 汇总 结果 

生成 柱状 图 表 。 图 表 中 显示 了 各 地 区 的 汽车 运输 费 和 人 工 搬运 费 对 比 情况 (图 4-18(c))。 

实验 确认 : 口 学 生 教师 























4.2.2 数据 清理 


对 于 一 份 庞大 的 数据 来 说 ,无 论 是 手动 录制 还 是 从 外 部 获取 ,难免 会 出 现 无 效 值 、 重 
复 值 .缺失 值 等 情况 。 不 符合 要 求 的 主要 有 缺失 数据 ,错误 数据 ,重复 数据 这 三 类 ,这 样 的 
数据 就 需要 进行 清洗 ,此 外 还 有 数据 一 致 性 检查 等 操作 。 

(1) 缺失 的 数据 : 在 实际 的 数据 收集 中 ,数据 项 的 缺失 是 很 常见 的 。 这 主要 是 一 些 


弟 (4 之 1Exeej 数 据 可 物化 方法 


应 该 有 的 信息 缺失 了 ,如 供应 商 的 名 称 、 分 公司 的 名 称 、 客 户 的 区 域 信息 缺失 ,业务 系 
统 中 主 表 与 明细 表 不 能 匹配 ,或 者 是 人 为 原因 导致 的 在 某 些 时 间 段 内 传感器 信息 的 缺 
失 等 。 

(2) 错误 的 数据 : 产生 的 原因 往往 是 业务 系统 不 够 健全 ,在 接收 输入 后 没有 进行 判 
断 就 直接 写 入 后 台数 据 库 造成 的 ,例如 数值 数据 输 成 全 角 字 符 、 日 期 格式 不 正确 、 日 期 越 
界 等 。Excel 公式 中 的 错误 值 通常 是 因为 公式 不 能 正确 地 计算 结果 或 公式 引用 的 单元 格 
有 错误 造成 的 。 

(3) 重复 的 数据 : 产生 的 原因 一 般 是 因为 时 间 段 过 长 ,忘记 了 前 期 所 做 的 记录 ,后 期 
又 重复 记录 ;或 是 同一 工作 任务 被 不 同 的 执行 者 执行 .导致 相同 的 数据 产生 ;或 是 在 数据 
处 理 过 程 中 产生 了 重复 的 数据 。 

想 要 清除 这 些 有 缺陷 的 数据 ,就 需要 根据 它们 的 类 型 从 不 同 角度 进行 操作 ,如 填补 遗 
漏 的 数据 消除 异常 值 . 纠 正 不 一 致 的 数据 等 。 对 于 这 种 问题 的 处 理 方法 有 批量 删除 重复 
值 等 。 

在 实际 工作 中 ,由 于 对 公式 的 不 熟悉 .单元 格 引用 不 当 、 数 据 本 身 不 满足 公式 参数 的 
要 求 等 原因 ,难免 会 出 现 一 些 错误 。 但 是 有 些 时 候 出 现 的 错误 类 型 并 不 影响 计算 结果 ,此 
时 应 该 对 错误 值 进 行 深度 处 理 , 可 显示 为 空白 或 用 0 代替 ,以 方便 查阅 。 

例如 ,要 用 0 显示 错误 值 , 可 在 计算 结果 的 单元 格 中 输入 公式 (假设 数据 在 A2: 
B9 中 ): 

=IFERROR(VLOOKUP( "0", A2:B9, 2, 0) , "0") 


4.2.3 抽样 产生 随机 数据 


做 数据 分 析 市场 研 究 .产品 质量 检测 ,不 可 能 像 人 口 普查 那样 进行 全 量 的 研究 。 这 
就 需要 用 到 抽样 分 析 技 术 。 在 Excel 中 使 用 “抽样 ”工具 ,必须 先 启 用 “开发 工具 ”选项 , 然 
后 再 加 载 “ 分 析 工 具 库 ”。 

抽样 方式 包括 周期 和 随机 。 所 谓 周期 模式 , 即 所 谓 的 等 距 抽样 ,需要 输入 周期 间隔 。 
输入 区 域 中 位 于 间隔 点 处 的 数值 以 及 此 后 每 一 个 间隔 点 处 的 数值 将 被 复制 到 输出 列 中 。 
当 到 达 输 入 区 域 的 末尾 时 ,抽样 将 停止 。 而 随机 模式 适用 于 分 层 抽样 . 整 群 抽样 和 多 阶段 
抽样 等 ,只 需要 输入 样本 数 , 计 算 机 自行 进行 抽样 ,不 用 受 间 隔 规 律 的 限制 。 

实例 4-4 随机 抽样 客户 编码 。 

步骤 1: 加 载 “分 析 工 具 库 ”。 单 击 “ 文 件 ”>“ 选 项 ”>“ 自 定义 功能 区 ”( 图 4-19) ,然后 
在 “ 自 定义 功能 区 ”面板 中 色 选 “开发 工具 ”, 单 击 “ 确 定 ” 按 钮 ,这 样 , 在 Excel 工作 表 的 主 
菜单 中 就 会 显示 “开发 工具 ”命令 (图 4-20)。 

步骤 2: 单 击 “ 开 发 工具 ”一 “加 载 项 ”, 在 弹出 的 对 话 框 列 表 中 色 选 “分 析 工 具 库 ”, 单 
击 “ 确 定 ” 按 钮 ,就 可 成 功 加 载 “数据 分 析 ” 功 能 。 这 时 ,在 “数据 ”选项 卡 的 “分 析 ” 组 中 可 以 
看 到 “数据 分 析 ” 选 项 。 

现 有 从 51001 开始 的 100 个 连续 的 客户 编码 ,需要 从 中 抽取 20 个 客户 编码 进行 电话 
拜访 ,用 抽样 分 析 工 具 产 生 一 组 随机 数据 。 
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图 4-20 “开发 工具 ”选项 卡 








步骤 3: 获取 原始 数据 。 如 图 4-21(a) 所 示 , 将 编码 从 51001 开始 按 列 依次 排序 到 
51100, 并 对 间隔 列 填充 相同 颜色 。 
步骤 4: 使 用 抽样 工具 。 在 “数据 ”选项 卡 下 的 “分 析 ” 组 中 单 击 “ 数 据 分 析 ” 按 钮 ,打开 
“数据 分 析 ” 对 话 框 ,然后 在 “分 析 工 具 ” 列 表 中 选择 “抽样 ”, 如 图 4-21(b) 所 示 。 

步骤 5: 设置 输入 区 域 和 抽样 方式 。 在 弹出 的 “抽样 ?对 话 框 中 ,设置 “输入 区 域 ? 为 
$A$1:$1$10, 设 置 “抽样 方法 ?为 “随机 ”、 样 本数 为 20, 再 设置 “输出 区 域 ” 为 $K$1， 
如 图 4-21(c) 。 
步骤 6: 抽样 结果 。 单 击 对 话 框 中 的 “确定 ”按钮 后 ,区 列 中 随机 产生 了 20 个 样本 数 
据 , 将 产生 的 后 10 个 数据 剪 切 到 LL 列 ,然后 利用 突出 显示 单元 格 规则 下 的 重复 值 选项 ， 
将 重复 结果 用 不 同 颜色 标记 出 来 ,结果 如 图 4-21(d) 所 示 。 
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43 数理 统计 中 的 常见 统计 量 


人 们 在 描述 事物 或 过 程 时 ,已 经 习惯 性 地 偏好 于 接受 数字 信息 以 及 对 各 种 数字 进行 
整理 和 分 析 ,而 统计 学 就 是 基于 现实 经 济 社会 发 展 的 需求 而 不 断 发 展 的 。 


4.3.1 比 平均 值 更 稳定 的 中 位 数 和 众 数 


在 统计 学 领域 有 一 组 统计 量 是 用 来 描述 样本 的 集中 趋势 的 ,它们 就 是 平均 值 . 中 位 数 
和 众 数 。 

(1) 平均 值 : 在 一 组 数据 中 ,所 有 数据 之 和 再 除 以 这 组 数据 的 个 数 。 

(2) 中 位 数 : 将 数据 从 小 到 大 排序 之 后 的 样本 序列 中 ,位 于 中 间 的 数值 。 

(3) 众 数 : 一 组 数据 中 ,出 现 次 数 最 多 的 数 。 

平均 数 涉及 所 有 的 数据 ,中 位 数 和 众 数 只 涉及 部 分 数据 。 它 们 互相 之 间 可 以 相等 也 
可 以 不 相等 , 却 没 有 固定 的 大 小 关系 。 

一 般 来 说 ,平均 数 、 中 位 数 和 众 数 都 是 一 组 数据 的 代表 ,分 别 代 表 这 组 数据 的 “一 般 水 
平 "“ 中 等 水 平 " 和 “多 数 水 平 ”。 

实例 4-5 员工 工作 量 统 计 。 

在 本 实例 中 ,统计 员工 7 月 份 的 工作 量 ,对 整个 公司 的 工作 进度 进行 分 析 , 再 评价 姓 














大 有 财 昌 加 锣 比 


名 为 “ 陈 科 ” 的 员工 的 工作 情况 。 
如 图 4-22(a) 所 示 , 在 工作 表 中 分 别 利用 AVERAGE 函数 .MEDIAN 函数 和 MODE 
函数 求 出 “业绩 ”的 平均 数 、 中 位 数 和 众 数 。 


员工 7 月 份 工作 量 分 析 图 





图 4-22 员工 工作 量 统计 


如 图 4-22(b) 所 示 , 用 “姓名 ” 列 和 “业绩 ” 列 作为 数据 源 ,将 其 生成 图 表 , 并 用 不 同 颜 
色 填 充 系列 “中 位 数 ”" 和 “ 众 数 "， 再 手绘 一 个 “平均 数 ” 的 柱 形 图 置 于 图 表 中 。 

从 图 表 中 可 以 看 出 , 若 要 体现 公司 的 整体 业绩 情况 ,平均 值 最 具 代 表 性 , 它 反 映 了 总 
体 中 的 平均 水 平 , 即 公司 7 月 份 员工 的 平均 业绩 : 194。 而 中 位 数 是 一 个 趋向 中 间 值 的 数 
据 ,处 于 总 体 的 中 间 位 置 ,所 以 有 一 半 的 样本 值 小 于 该 值 ,还 有 一 半 的 样本 值 大 于 该 值 , 相 
对 于 平均 值 来 讲 , 本 例 中 的 中 位 数 210 更 具 考 察 意 义 ,因为 平均 值 的 计算 受到 了 最 大 值 和 
最 小 值 两 个 极端 异常 值 的 影响 ,中 位 数 虽 然 不 能 反映 公司 的 一 般 水 平 ,但 是 却 反 映 了 公司 
的 集中 趋势 一 一 中 等 水 平 。 将 本 例 中 出 现 次 数 最 多 的 众 数 220 与 平均 数 和 中 位 数 对 比 后 
会 发 现 . 在 所 有 数据 中 220 是 一 个 多 数 人 的 水 平 , 它 反映 了 整个 公司 大 多 数 人 的 工作 状 
态 , 也 是 数据 集中 趋势 的 一 个 统计 量 。 

如 果 单 独 考察 “ 陈 科 ” 的 工作 状况 ,他 7 月 份 的 工作 业绩 是 200, 这 并 没有 达到 公司 的 
“中 等 水 平 " 和 “多 数 水 平 ”, 但 参考 这 两 个 统计 量 并 不 能 否定 他 这 个 月 的 成 绩 , 因 为 他 的 业 
绩 高 于 整个 公司 的 “平均 水 平 ”。 
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4.3.2 概率 统计 中 的 正 态 分 布 和 偏 态 分 布 


概率 可 以 理解 为 随机 出 现 的 相对 数 。 随 机 现象 是 相对 于 决定 性 现象 而 言 的 。 在 一 定 
条 件 下 必然 发 生 某 一 结果 的 现象 称 为 决定 性 现象 。 随 机 现象 则 是 指 在 基本 条 件 不 变 的 情 
况 下 ,每 一 次 试验 或 观察 前 ,不 能 肯定 会 出 现 哪 种 结果 ,呈现 出 偶然 性 ,如 常见 的 撕 散 子 试 
验 。 事 件 的 概率 是 衡量 该 事件 发 生 的 可 能 性 的 量度 。 虽 然 在 一 次 随机 试验 中 某 个 事件 的 
发 生 是 带 有 偶然 性 的 ,但 那些 可 在 相同 条 件 下 大 量 重复 的 随机 试验 却 往 往 呈 现 出 明显 的 
数量 规律 ,其 中 正 态 分 布 和 偏 态 分 布 就 是 数据 有 规律 出 现 的 两 个 代表 。 

正 态 分 布 (图 4-23(a)) 是 一 种 对 称 概率 分 布 .而 偏 态 分 布 (图 4-23(b)) 是 指 频数 分 布 


第 (4 之 1Exeej 数 据 可 外 化 让 法 


不 对 称 、 集 中 位 置 偏向 一 侧 的 分 布 。 若 集中 位 置 偏向 数值 小 的 一 侧 . 称 为 正 偏 态 分 布 ; 集 
中 位 置 偏向 数值 大 的 一 侧 , 称 为 负 偏 态 分 布 。 在 Excel 中 通过 折线 图 或 散 点 图 可 以 模拟 
出 如 图 4-23 所 示 的 效果 。 
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(a) 正 态 分 布 图 (b) 偏 态 分 布 图 
图 4-23 正 态 分 布 和 偏 态 分 布 




















在 Excel 中 若 要 绘制 正 态 分 布 图 ,需要 了 解 NORMDIST 函数 。 该 函数 返回 指定 平均 值 
和 标准 偏差 的 正 态 分 布 函数 。 此 函数 在 统计 方面 应 用 范围 广泛 (包括 假设 检验 ), 能 建立 起 
一 定数 据 频率 分 布 直方 与 该 数据 平均 值 和 标准 差 所 确定 的 正 态 分 布 数据 的 对 照 关系 。 

实例 4-6 计算 学 生 考试 成 绩 的 正 态 分 布 图 。 

一 般 考试 成 绩 具有 正 态 分 布 现 象 。 现 假设 某 班 有 45 个 学 生 ,在 一 次 英语 考试 中 学 生 
的 成 绩 分 布 在 54 一 95 分 (假设 他 们 的 成 绩 按 学 号 依次 递增 ) ,计算 该 班 学 生成 绩 的 积累 分 
布 函 数 图 和 概率 密度 函数 图 ,参见 图 4-24(a)( 图 中 在 第 27 行 有 折 笃 ) 。 

步骤 1: 计算 均值 和 方差 。 在 C2 单元 格 中 输入 计算 学 生成 绩 的 均值 公式 
“一 AVERAGE(B3:B47)”, 按 回 车 键 后 显示 结果 。 然 后 在 D2 单元 格 中 输入 公式 
“一 STDEVP(B3:B47) "计算 学 生成 绩 的 方差 。 

步骤 2: 计算 积累 分 布 函 数 。 在 E3 单元 格 中 输入 正 态 分 布 函 数 的 公式 
“二 NORMDIST(B3,，$ C$2,$D$2, TRUE) ”。 输入 该 函数 的 cumulative 参数 时 , 选 
择 TRUE 选项 表示 积累 分 布 函数 。 

步骤 3: 计算 概率 密度 函数 。 在 F3 单元 格 中 输入 与 步骤 2 中 一 样 的 函数 公式 ,只 是 
最 后 一 个 cumulative 参数 设置 为 FALSE, 即 概率 密度 函数 。 

步骤 4: 填充 单元 格 公式 。 选 取 单 元 格 E3:F3, 拖 动 鼠标 填充 E4:F47 单元 格 区 域 。 

步骤 5: 绘制 概率 密度 函数 图 。 选 取 下 列 数据 ,插入 折线 图 ,系统 显示 如 图 4-24(b) 
所 示 。 

步骤 6: 绘制 积累 分 布 函 数 图 。 选 取 下列 数据 ,插入 面积 图 ,系统 显示 如 图 4-24(c) 
所 示 。 
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4.3.3 ”应 用 在 财务 预算 中 的 分 析 工 具 


大 数据 预测 分 析 是 大 数据 的 核心 ,但 同时 也 是 一 个 很 困难 的 任务 。 这 里 我 们 尝试 在 
Excel 中 实现 数据 的 分 析 和 预测 。 
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图 4-24 学 生 考试 成 绩 


Excel 中 包括 三 种 预测 数据 的 工具 , 即 移动 平均 法 .指数 平滑 法 和 回归 分 析 法 。 

(1) 移动 平均 法 : 适用 于 近期 预测 。 当 产品 需求 既 不 快速 增长 也 不 快速 下 降 , 且 不 
存在 季节 性 因素 时 ,移动 平均 法 能 有 效 地 消除 预测 中 的 随机 波动 ,是 非常 有 用 的 。 

(2) 指数 平滑 法 : 是 生产 预测 中 常用 的 一 种 方法 ,也 用 于 中 短期 经 济 发 展 趋势 预测 。 
它 兼 容 了 全 期 平均 和 移动 平均 所 长 ,不 舍弃 过 去 的 数据 ,但 是 仅 给 予 逐渐 减弱 的 影响 程 
度 , 即 随 着 数据 的 远离 ,赋予 逐渐 收敛 为 零 的 权 数 。 

(3) 回归 分 析 法 : 是 在 掌握 大 量 观察 数据 的 基础 上 ,利用 数理 统计 方法 建立 因 变 量 
与 自 变量 之 间 的 回归 关系 函数 表达 式 。 回 归 分 析 法 不 能 用 于 分 析 与 评价 工程 项 目 风险 。 

简单 的 全 期 平均 法 是 对 时 间 序 列 的 过 去 数据 一 个 不 漏 地 全 部 加 以 同等 利用 ;而 移动 
平均 法 不 考虑 较 远 期 的 数据 ,并 在 加 权 移 动 平均 法 中 给 予 近期 资料 更 大 的 权重 。 

移动 平均 法 根据 预测 时 使 用 的 各 元 素 的 权重 不 同 , 可 以 分 为 简单 移动 平均 和 加 权 移 
动 平均 ,简单 移动 平均 的 各 元 素 的 权重 都 相等 ,加 权 移 动 平均 给 固定 跨越 期 限 内 的 每 个 变 
量 值 以 不 相等 的 权重 。 其 原理 是 : 历史 各 期 产品 需求 的 数据 信息 对 预测 未 来 期 内 的 需求 
量 的 作用 是 不 一 样 的 。 
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实例 4-7 一 次 移动 平均 法 预测 。 
如 图 4-25(a) 所 示 是 一 份 某 企业 2015 年 12 个 月 的 销售 额 情况 表 , 表 中 记录 了 1 一 12 


EE 全 二 旺 扎 可 面相 记 二 


月 每 个 月 的 具体 销售 额 , 按 移动 期 数 为 3 来 预测 企业 下 一 个 月 的 销售 额 。 
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图 4-25 一 次 移动 平均 法 预测 


步 又 1: 数据 分 析 。 打 开销 售 额 情况 表 , 在 “数据 ”选项 卡 下 , 单 击 “ 分 析 ” 组 中 的 “数据 
分 析 ” 按 钮 ,打开 “数据 分 析 ” 对 话 框 ,在 “分 析 工 具 ” 列 表 中 选择 “移动 平均 "工具 , 单 击 “ 确 
定 ” 按 钮 。 

步骤 2: 在 “移动 平均 ”对 话 框 中 进行 设置 。 在 “移动 平均 "对话 框 中 设置 “输入 区 域 ” 
为 $B$2:$B$13“ 输 出 区 域 " 为 $C3“ 间 隔 ? 为 3, 如 图 4-25(b) 所 示 。 

步骤 3: 预测 结果 。 单 击 “ 移 动 平均 ”对 话 框 中 的 “确定 ”按钮 后 ,运行 结果 会 显示 在 单 
元 格 区 域 C5:C13 中 ,图 4-25(a) 中 的 第 14 行 数据 即 是 下 月 的 预测 值 。 

实例 4-8 指数 平滑 法 预测 。 

如 图 4-26(a) 所 示 是 某 企 业 2013 年 的 销售 额 数据 ,用 指数 平滑 法 预测 下 一 个 月 的 销 
售 额 。 
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(b) 
图 4-26 指数 平滑 法 预测 





大 由 昌林 钢化 





步骤 1: 打开 “指数 平滑 ”对 话 框 ,设置 “输入 区 域 ” 为 $B$2:$B$13、“ 输 出 区 域 ”为 
$C$3”, 然 后 输入 “阻尼 系数 ”为 0.2, 再 勾 选 “图 表 输出 ” 复 选 框 , 单 击 “ 确 定 ” 按 钮 。 
步骤 2: 预测 结果 。 工 作 表 中 C14 单元 格 中 的 数据 就 是 指数 平滑 法 预测 出 的 结果 。 
步骤 3: 图 表 输 出 。 除 了 工作 表 中 会 显示 预测 数据 外 ,由 于 勾 选 了 “图 表 输 出 ”选项 ， 
所 以 系统 还 会 将 预测 结果 用 图 表 的 形式 输出 ,如 图 4-26(b) 所 示 。 
实验 确认 : 口 学 生 教师 


44 改变 数据 形式 引起 的 图 表 变 化 


常见 的 数量 单位 有 一 ,十 、 百 \ 千 、 万 、 亿 、 粮 等 ,万 以 下 是 十 进 制 ,万 以 上 则 为 万 进 制 ， 
即 万 万 为 亿 , 万 亿 为 兆 ; 小 数 点 以 下 为 十 退位 。 在 Excel 中 ,数据 单位 是 否 合理 直接 影响 
了 图 表 的 表达 形式 ,如 果 数 据 单位 没有 设置 恰当 ,制作 的 图 表 不 但 不 能 准确 传递 数据 信 
息 , 还 可 能 误导 用 户 对 图 表 的 使 用 ,或 者 使 设计 的 图 表 失 去 意义 。 


4.4.1 用 负数 突出 数据 的 增长 情况 


在 计算 产值 .增加 值 产量、 销售 收入 .实现 利润 和 实现 利税 等 项 目的 增长 率 时 ,经 常 

使 用 的 计算 公式 为 : 
增长 率 (%) =( 报 告 期 水 平一 基期 水 平 )/ 基期 水 平 x 100% 
一 增长 量 / 基期 水 平 x 100% 

其 中 报告 期 和 基期 构成 一 对 相对 的 概念 ,报告 期 基期 的 对 称 , 是 指 在 计算 动态 分 析 指 针 
时 ,需要 说 明 其 变化 状况 的 时 期 ;基期 是 作为 对 比 基 础 的 时 期 。 

实例 4-9 突出 数据 的 增长 情况 。 

数据 如 图 4-27(a) 所 示 ,. 用 “销售 额 * 来 表达 数据 增长 情况 并 不 为 过 (图 4-27(b)), 从 
图 表 中 可 以 看 出 某 年 销售 额 的 增长 趋势 。 

在 C3 单元 格 中 输入 计算 增长 率 的 公式 “二 (B3 一 B2)/B2”, 然 后 拖 动 鼠 标 填充 C3。 

用 增长 额 来 分 析 , 数 据 波动 的 大 小 和 负增长 的 情况 并 不 那么 显而易见 。 而 在 图 4-27(c) 
中 ,折线 的 起 伏 不 定 表示 了 数据 的 波动 情况 ,而 且 在 零 基 线 上 方 展示 了 数据 的 正 增长 ,还 
有 一 小 部 分 在 零 基线 下 方 ,说明 该 年 的 销售 额 数据 有 负增长 的 情况 一 一 这 就 是 用 增长 率 
来 分 析 数 据 的 优势 。 



































实验 确认 : 口 学 生 教师 
4.4.2 ” 重 排 关键 字 顺 序 使 图 表 更 合适 


条 形 图 和 柱 形 图 最 常用 于 说 明 各 组 之 间 的 比较 情况 。 条 形 图 是 水 平 显示 数据 的 唯一 
图 表 类 型 。 因 此 ,该 图 常用 于 表示 随时 间 变 化 的 数据 ,并 带 有 限定 的 开始 和 结束 日 期 。 另 
外 ,由 于 类 别 可 以 水 平 显示 ,因此 它 还 常用 于 显示 分 类 信息 。 

实例 4-10 ” 重 排 关键 字 顺 序 的 效果 。 

在 图 4-28(a) 中 , 选 定 B2 单元 格 , 切 换 至 “数据 "选项 卡 下 ,在 “排序 和 筛选 "组 中 单 击 
“升序 ”按钮 , 便 可 得 到 图 4-28(b) 所 示 的 结果 。 
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图 4-27 数据 的 增长 情况 


从 图 4-28(c) 可 知 源 数据 的 凌乱 无 序 , 无 论 是 数据 还 是 关键 字 毫 无 规律 可 言 。 条 形 图 
与 柱状 图 一 样 ,在 表示 项 目 数据 大 小 时 ,一般 都 会 先 对 数据 排序 。 图 4-28(d) 是 对 数值 按 
从 大 到 小 的 顺序 进行 排列 后 的 效果 。 对 于 条 形 图 ,人 们 习惯 将 类 别 按 从 大 至 小 的 次 序 排 
列 , 也 就 是 要 将 源 数 据 按 降序 排列 才 会 达到 此 效果 。 





实验 确认 : 口 学 生 教师 

















【延伸 阅读 】 
科学 家 与 人 文学 家 走出 “象牙 塔 ” 


在 记录 文化 的 方式 上 ,古今 最 大 的 差异 在 于 今天 的 大 数据 是 以 数字 形式 存在 的 。 正 
如 光学 透镜 能 转换 和 操纵 光线 一 样 , 数 字 媒体 也 能 转换 和 操纵 信息 。 只 要 拥有 充足 的 数 
字 记 录 和 一 定 程度 的 计算 能 力 , 那 么 人 类 文化 的 相关 研究 就 会 达到 新 的 制高点 ,人 们 也 就 
有 可 能 在 认识 世界 以 及 理解 人 们 在 世界 中 的 地 位 方面 做 出 令 人 惊叹 的 贡献 。 

让 我 们 来 考虑 这 样 一 个 问题 : 如 果 你 想 了 解 现代 人 类 社会 ,那么 你 将 去 哪里 寻求 更 
有 利 的 帮助 ? 是 一 所 拥有 众多 社会 学 家 的 一 流 大 学 ,还 是 帮助 人 们 实现 在 线 社交 的 
Facebook 呢 ? 

尽管 ,成 为 大 学 社会 学 系 的 教师 可 以 让 我 们 获 益 于 那些 一 生 致力 于 学 习 和 研究 的 聪 
明 大 脑 。 然 而 ,Facebook 是 10 亿 人 日 常 社会 生活 的 一 部 分 , 它 知道 人 们 在 哪里 居住 和 工 


大 烧 扎 可 质 息 











B 
销量 (单位 : 亿 元 》 


112 













































































ao 站 中 四 wm 





























(9 (b) 
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图 4-28 重 排 关键 字 顺 序 的 效果 


作 、 和 谁 在 哪儿 交往 、 喜 好 什么 、 什 么 时 候 生 病 以 及 和 朋友 谈论 的 话题 等 。 因 此 ,答案 很 可 
能 是 Facebook。 如 果 现 在 答案 还 不 是 Facebook, 那 么 20 年 后 , 当 Facebook 或 者 其 他 类 
似 的 网 站 存储 了 万 倍 于 当前 的 个 人 信息 时 ,答案 又 是 怎样 的 呢 ? 

诸如 此 类 的 思考 开始 促使 科学 家 和 人 文学 者 做 出 一 些 不 寻常 的 举动 : 走出 象牙 塔 ， 
开展 和 大 公司 的 合作 研究 。 尽 管 这 些 合作 者 在 观念 和 动机 上 的 差异 很 大 ,但 它们 合作 开 
展 的 研究 类 型 是 人 们 无 法 想象 的 一 一 它们 使 用 的 是 规模 前 所 未 有 的 数据 。 

斯 坦 福 大 学 经 济 学 家 乔 恩 。 菜 文 和 eBay 合作 ,研究 市 场 中 商品 的 价格 是 如 何 确定 
的 。 菜 文 发 现 ,eBay 商家 经 常 进行 小 型 实验 来 确定 货物 的 价格 。 通 过 同时 研究 数 十 万 
个 这 样 的 定价 实验 , 菜 文 和 他 的 同事 阅 明 了 经 济 学 中 一 个 相对 成 熟 但 却 仍 然 停 留 在 理 
论 阶段 的 分 支 一 价格 理论 。 菜 文 指出 , 现 有 的 文献 多 数 情况 下 是 正确 的 ,但 有 时 也 会 
有 重大 错误 。 菜 文 在 这 一 方面 的 研究 上 做 出 了 巨大 贡献 ,使 其 获得 了 约翰 。 贝 英 。 克 
拉克 奖 , 该 奖项 是 40 岁 以 下 经 济 学 家 能 获得 的 最 高 荣誉 ,其 得 主 往往 直 指 诺 贝尔 经 济 

加 利 福 尼 亚 大 学 圣 迭 苞 分 校 的 麻 姆 斯 。 福 勒 带领 他 的 研究 小 组 和 Facebook 合作 ,对 
6100 万 个 Facebook 用 户 进行 了 实验 。 实 验 结 果 表 明 , 当 一 个 人 听 说 自己 的 密友 注册 
Facebook 进行 投票 后 ,其 注册 的 可 能 性 会 相应 变 大 。 而 他 们 的 朋友 关系 越 密切 ,相互 间 
的 影响 也 就 会 越 大 。 除 了 这 一 有 趣 的 实验 结果 外 ,这 个 实验 还 被 权威 学 术 期 刊 (自然 ) 做 
过 封面 特别 报道 。 另 外 ,实验 还 发 现 ,2010 年 的 美国 选举 中 增加 了 超过 30 万 张 选票 ,而 
这 些 选 票 足 以 改变 选举 结果 。 

美国 东北 大 学 的 物理 学 家 艾 伯 特 - 拉 斯 洛 。 巴 拉巴 西 和 一 些 大 型 电话 公司 合作 ,通过 
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分 析 手 机 用 户 留 下 的 数字 足迹 ,研究 数 百 万 人 的 移动 轨迹 。 巴 拉巴 西 和 他 的 团队 提出 了 
一 种 研究 人 类 迁移 的 数学 分 析 方法 ,并 在 多 个 城市 进行 实验 。 他 们 通过 分 析 人 类 迁移 的 
历史 记录 ,有 时 甚至 能 够 预测 出 人 们 接 下 来 会 去 哪 。 

谷歌 软件 工程 师 杰 里 米 。 人 金 斯 伯 格 领导 的 团队 观测 到 : 在 传染 病 流行 期 间 , 人 们 很 
可 能 会 去 搜索 流感 症状 、 并 发 症 和 疗法 。 金 斯 伯 格 及 其 团队 利用 这 一 令 人 吃惊 的 事实 做 
了 更 进一步 的 研究 : 他 们 搭建 了 一 个 可 以 实时 查看 某 个 特定 地 区 的 人 们 在 谷歌 中 的 搜索 
内 容 , 从 而 识别 出 逐渐 增多 的 流感 传染 区 域 的 系统 。 在 识别 新 传染 病 方 面 , 他 们 设计 出 的 
这 个 早期 预警 系统 比美 国 疾病 控制 与 预防 中 心 要 快 很 多 ,尽管 后 者 拥有 庞大 而 昂贵 的 专 
用 基础 设施 。 

哈佛 大 学 经 济 学 家 拉 杰 。 切 蒂 联 系 美 国 国家 税务 局 ,说 服 其 共享 某 个 城区 数 百 万 学 
生 的 信息 。 他 和 他 的 合作 者 将 这 些 信息 与 学 生 课 堂 作业 布置 情况 的 信息 合成 了 一 个 新 的 
数据 库 , 后 者 是 由 学 校 提供 的 。 通 过 这 个 数据 库 , 切 蒂 的 团队 可 以 知道 哪个 学 生 师 从 于 哪 
位 教师 ,从 而 能 够 开展 一 系列 开创 性 的 研究 : 能 师 从 于 一 位 优秀 的 教师 对 学 生 的 长 期 影 
响 以 及 一 些 其 他 政策 介入 产生 的 影响 。 他 们 发 现 ,一 位 优秀 的 教师 会 影响 学 生 上 大 学 的 
可 能 性 、 学 生 们 毕业 多 年 后 的 收入 其 至 学 生 们 今后 生活 中 邻里 关系 良好 的 可 能 性 。 切 蒂 
的 团队 用 他 们 的 发 现 来 帮助 改善 对 教师 工作 成 效 的 考核 。2013 年 , 切 蒂 获得 了 约翰 。 贝 
茨 。 克 拉克 奖 。 

在 FiveThirtyEight 博客 中 ,前 棒球 分 析 师 纳 特 。 西 尔 弗 研 究 了 通过 大 数据 来 预测 美 
国 大 选 的 赢家 的 可 行 性 。 他 从 盖 洛 普 、 拉 斯 穆 森 、 兰 德 , 梅 尔 曼 、 美 国有 线 电 视 新 闻 网 
(CNN) 和 许多 其 他 网 站 上 搜集 关于 总 统 民 调 的 数据 。 利 用 这 些 数据 ,他 预测 到 奥巴马 将 
赢得 2008 年 大 选 , 并 准确 预测 出 了 49 个 州 以 及 哥伦比亚 特区 的 选举 人 团 的 获胜 者 ,唯一 
一 个 预测 错 的 州 是 印第安 纳 州 。 预 测 准确 率 似乎 已 经 没有 多 少 可 以 提高 的 空间 了 。 但 
是 ,在 下 一 次 大 选中 ,他 却 的 确 提高 了 预测 准确 率 。 在 2012 年 选举 日 的 上 午 , 西 尔 弗 宣 
布 ,奥巴马 有 90.9% 的 可 能 性 会 击败 罗 姆 尼 , 并 准确 预测 了 哥伦比亚 特区 和 每 个 州 的 当 
选 者 ,而 这 一 次 印第安 纳 州 也 没 能 例外 。 

使 用 大 数据 进行 探索 的 实例 还 有 很 多 ,而 且 还 在 不 断 涌现 。 如 今 的 研究 人 员 利 用 大 
数据 所 做 的 实验 是 他 们 的 前 辈 们 做 梦 都 想不到 的 。 

资料 来 源 : [ 美 ] 埃 雷 效 。 艾 登 ,[ 法 ] 让 - 巴 蒂 斯 特 。 米 软 尔 著 , 王 彤 彤 等 译 . 可 视 化 未 来 一 数据 透 
视 下 的 人 文大 趋势 .杭州 : 浙江 人 民 出 版 社 ,2015 


【实验 与 思考 】 
体验 Excd 数据 可 视 化 方法 
1. 实验 目的 


(1) 熟悉 Excel 电子 表格 的 基本 操作 ; 
(2) 通过 对 课文 中 实例 的 实验 操作 ,熟悉 Excel 数据 分 析 和 数据 可 视 化 方法 。 
(3) 体验 大 数据 可 视 化 分 析 的 基础 操作 。 


攻 














2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 安 装 有 Microsoft Excel(2013 版 ) 应 用 软件 的 计算 机 。 


3. 实验 内 容 与 步骤 


请 仔细 阅读 本 章 的 课文 内 容 , 对 其 中 的 各 个 实例 实施 具体 操作 ,从 中 体验 Excel 数据 
统计 分 析 与 可 视 化 方法 。 

注意 : 完成 每 个 实例 操作 后 ,在 对 应 的 “实验 确认 ” 栏 中 打 勾 (~/ ), 并 请 实验 指导 老师 
指导 并 确认 。 

请 问 : 你 是 否 完成 了 上 述 各 个 实例 的 实验 操作 ? 如 果 不 能 顺利 完成 ,请 分 析 可 能 的 
原因 是 什么 ? 

答 : 














4. 实验 总 结 














5. 实验 评价 (教师 ) 
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【导读 案例 】 
包罗 一 切 的 数字 图 书馆 


我 们 要 讲述 的 是 一 个 有 关 对 图 书馆 进行 实验 的 故事 。 没 错 , 我 们 的 实验 对 象 不 是 一 
个 人 、 一 只 青蛙 、 一 个 分 子 或 者 原子 ,而 是 史学 史 中 最 有 趣 的 数据 集 一 一 个 旨 在 包罗 所 
有 书籍 的 数字 图 书馆 。 

这 样 神奇 的 图 书馆 从 何 而 来 呢 ? 

1996 年 ,斯 坦 福 大 学 计算 机 科学 系 的 两 位 研究 生 正在 做 一 个 现在 已 经 没什么 影响 力 
的 项 目 一 一 斯 坦 福 数字 图 书馆 技术 项 目 。 该 项 目的 目标 是 展望 图 书馆 的 未 来 ,构建 一 个 
能 够 将 所 有 书籍 和 万 维 网 整合 起 来 的 图 书馆 。 他 们 打算 开发 一 个 工具 ,能 够 让 用 户 浏览 
图 书馆 的 所 有 藏书 。 但 是 ,这 个 想法 在 当时 是 难以 实现 的 ,因为 只 有 很 少 一 部 分 书 是 数字 
形式 的 。 于 是 ,他 们 将 该 想法 和 相关 技术 转移 到 文本 上 ,将 大 数据 实验 延伸 到 万 维 网 上 ， 
开发 出 了 一 个 让 用 户 能 够 浏览 万 维 网 上 所 有 网 页 的 工具 ,他 们 最 终 开发 出 了 一 个 搜索 引 
擎 ,并 将 其 称 为 “谷歌 ”。 

到 2004 年 ,谷歌 “组 织 全 世界 的 信息 ”的 使 命 进展 得 很 顺利 ,这 就 使 其 创始 人 拉 里 。 
佩 奇 有 眼 回 顾 他 的 “初恋 ”一 一 数字 图 书馆 。 令 人 温 吏 的 是 ,仍然 只 有 少数 书 是 数字 形式 
的 。 不 过 ,在 那 几 年 间 , 某 些 事情 已 经 改变 了 : 佩 奇 现在 是 亿 万 富 丛 。 于 是 ,他 决定 让 谷 
歌 涉足 扫描 图 书 并 对 其 进行 数字 化 的 业务 。 尽 管 他 的 公司 已 经 在 做 这 项 业务 了 ,但 他 认 
为 谷歌 应 该 为 此 竭尽 全 力 。 

雄心 勃勃 ? 无 疑 如 此 。 不 过 ,谷歌 最 终 成 功 了 。 在 公开 宣称 启动 该 项 目的 9 年 后 , 谷 
歌 完 成 了 3000 多 万 本 书 的 数字 化 ,相当 于 历史 上 出 版 图 书 总 数 的 /4。 其 收录 的 图 书 总 
量 超过 了 哈佛 大 学 (1700 万 册 )、 斯 坦 福 大 学 (900 万 册 )、 牛 津 大 学 (1100 万 册 ) 以 及 其 他 
任何 大 学 的 图 书馆 ,甚至 还 超过 了 俄罗斯 国家 图 书馆 (1500 万 册 )、 中 国 国家 图 书馆 
(2600 万 册 ) 和 德国 国家 图 书馆 (2500 万 册 )。 在 撰写 本 书 时 ,唯一 比 谷 歌 藏书 更 多 的 
图 书馆 是 美国 国会 图 书馆 (3300 万 册 )。 而 在 你 读 到 这 身 话 的 时 候 , 谷 歌 可 能 已 经 超过 
Ee 

当 “ 谷 歌 图 书 ”( 图 5-1) 项 目 启动 时 ,我 们 和 其 他 人 一 样 是 从 新 闻 中 得 知 的 。 但 是 , 直 
到 两 年 后 的 2006 年 ,这 一 项 目的 影响 才 真 正 显 现 出 来 。 当 时 ,我 们 正在 写 一 篇 关于 英语 
语法 历史 的 论文 。 为 了 该 论文 ,我 们 对 一 些 古 英语 语法 教科 书 做 了 小 规模 的 数字 化 。 
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现实 问题 是 : 与 我 们 的 研究 最 相关 的 书 被 “埋藏 "在 哈佛 大 学 魏 德 纳 图 书馆 (图 5-2) 
里 ,我 们 要 介绍 一 下 我 们 是 如 何 找到 这 些 书 的 。 首 先 , 到 达 图 书馆 东 楼 的 二 层 , 走 过 罗斯 
福 收藏 室 和 美洲 印第安 人 语言 部 ,你 会 看 到 一 个 标 有 电话 号 码 8900 和 向 上 标识 的 过 道 ， 
这 些 书 被 放 在 从 上 数 的 第 二 个 书架 上 。 多 年 来 ,伴随 着 研究 的 推进 ,我 们 经 常 来 翻阅 这 个 
书架 上 的 书 。 那 些 年 ,我 们 是 唯一 借阅 过 这 些 书 的 人 ,除了 我 们 之 外 没有 人 在 意 这 个 
书架 。 


Gasgle 


图 5-1 谷歌 图 书 的 Logo 图 5-2 哈佛 大 学 魏 德 纳 图 书馆 





有 一 天 ,我 们 注意 到 我 们 的 研究 中 经 常 使 用 的 一 本 书 可 以 在 网 上 看 到 了 。 那 是 由 “ 谷 
歌 图 书 ” 项 目 ( 图 5-3) 实 现 的 。 出 于 好 奇 ,我 们 开始 在 “谷歌 图 书 ” 项 目 中 搜索 魏 德 纳 图 书 
馆 那 个 书架 上 的 其 他 书 , 而 那些 书 同样 也 可 以 在 “谷歌 图 书 ” 项 目 中 找到 。 这 并 不 是 因为 
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图 5-3 谷歌 图 书 


第 5 人 神 (Eeej 数 蝎 可 贸 化 应 用 


谷歌 公司 关心 中 世纪 英语 的 语法 。 我 们 又 搜索 了 其 他 一 些 书 , 无 论 这 些 书 来 自 哪个 书架 ， 
都 可 以 在 “谷歌 图 书 ” 中 找到 对 应 的 电子 版 本 。 也 就 是 说 ,就 在 我 们 动手 数字 化 那 几 本 语 
法 书 时 ,谷歌 已 经 数字 化 了 几 栋 楼 的 书 ! 

谷歌 的 大 量 藏书 代表 了 一 种 全 新 的 大 数据 ,其 有 可 能 会 转变 人 们 看 待 过 去 的 方式 。 
大 多 数 大 数据 虽然 大 ,但 时 间 跨 度 却 很 短 , 是 有 关 近 期 事件 的 新 近 记 录 。 这 是 因为 这 些 数 
据 是 由 互联 网 催生 的 ,而 互联 网 只 是 一 项 新 兴 的 技术 。 我 们 的 目标 是 研究 文化 变迁 ,而 文 
化 变迁 通常 会 跨越 很 长 的 时 间 段 ,这 期 间 一 代 代 的 人 生生 死 死 。 当 我 们 探索 历史 上 的 文 
化 变迁 时 ,短期 数据 是 没有 多 大 用 处 的 ,不 管 它 有 多 大 。 

“谷歌 图 书 ” 项 目的 规模 可 以 和 我 们 这 个 数字 媒体 时 代 的 任何 一 个 数据 集 相 媲美 。 谷 
歌 数字 化 的 书 并 不 只 是 当代 的 ,不 像 电 子 邮 件 、RSS 订阅 和 superpokes 等 ,这 些 书 可 以 追 
滴 到 几 个 世纪 前 。 因 此 ,“ 谷 歌 图 书 ” 不 仅 是 大 数据 ,而 且 是 长 数据 。 

由 于 “谷歌 图 书 ” 包 含 了 如 此 长 的 数据 ,和 大 多 数 大 数据 不 同 , 这 些 数 字 化 的 图 书 不 局 
限于 描绘 当代 人 文 图 景 ,还 反映 了 人 类 文明 在 相当 长 一 段 时 期 内 的 变迁 ,其 时 间 跨 度 比 一 
个 人 的 生命 更 长 ,甚至 比 一 个 国家 的 寿命 还 长 。* 谷 歌 图 书 ” 的 数据 集 也 由 于 其 他 原因 而 
备 受 青睐 一 一 它 涵盖 的 主题 范围 非常 广泛 。 浏 览 如 此 大 量 的 书籍 可 以 被 认为 是 在 咨询 大 
量 的 人 ,而 其 中 有 很 多 人 都 已 经 去 世 了 。 在 历史 和 文学 领域 ,关于 特定 时 间 和 地 区 的 书 是 
了 解 那个 时 间 和 地 区 的 重要 信息 源 。 

由 此 可 见 , 通 过 数字 透镜 来 阅读 "谷歌 图 书 ” 将 有 可 能 建立 一 个 研究 人 类 历史 的 新 视 
角 。 我 们 知道 ,无 论 要 花 多 长 时 间 , 我 们 都 必须 在 数据 上 入 手 。 

大 数据 为 我 们 认识 周围 世界 创造 了 新 机 遇 , 同 时 也 带 来 了 新 的 挑战 。 

第 一 个 主要 的 挑战 是 : 大 数据 和 数据 科学 家 们 之 前 运用 的 数据 在 结构 上 差异 很 大 。 
科学 家 们 喜欢 采用 精巧 的 实验 推导 出 一 致 的 准确 结果 ,回答 精心 设计 的 问题 。 但 是 ,大 数 
据 是 杂乱 的 数据 集 。 典 型 的 数据 集 通 常会 混杂 很 多 事实 和 测量 数据 ,数据 搜集 过 程 随意 ， 
并 非 出 于 科学 研究 的 目的 。 因 此 ,大 数据 集 经 常 错漏 百出 、 残 缺 不 全 ,缺乏 科学 家 们 需要 
的 信息 。 而 这 些 错误 和 遗漏 即便 在 单个 数据 集中 也 往往 不 一 致 。 那 是 因为 大 数据 集 通常 
由 许多 小 数据 集 融 合 而 成 。 不 可 避免 地 ,构成 大 数据 集 的 一 些小 数据 集 比 其 他 小 数据 集 
要 可 人 靠 一 些 ,同时 每 个 小 数据 集 都 有 各 自 的 特性 。Facebook 就 是 一 个 很 好 的 例子 。 交 友 
在 Facebook 中 意味 着 截然 不 同 的 意思 。 有 些 人 无 节制 地 交友 ,有 些 人 则 对 交友 持 谨 慎 的 
态度 ;有 些 人 在 Facebook 中 将 同事 加 为 好 友 , 而 有 些 人 却 不 这 么 做 。 处 理 大 数据 的 一 部 
分 工作 就 是 熟悉 数据 ,以 便 你 能 反 推 出 产生 这 些 数 据 的 工程 师 们 的 想法 。 但 是 ,我 们 和 多 
达 1 拍 字 节 的 数据 又 能 熟悉 到 什么 程度 呢 ? 

第 二 个 主要 的 挑战 是 : 大 数据 和 我 们 通常 认为 的 科学 方法 并 不 完全 吻合 。 科 学 家 们 
想 通过 数据 证 实 某 个 假设 ,将 他 们 从 数据 中 了 解 到 的 东西 编织 成 具有 因果 关系 的 故事 ,并 
最 终 形成 一 个 数学 理论 。 当 在 大 数据 中 探索 时 ,你 会 不 可 避免 地 有 一 些 发 现 ,例如 ,公海 
的 海盗 出 现 率 和 气温 之 间 的 相关 性 。 这 种 探索 性 研究 有 时 被 称 为 “无 假设 ”研究 ,因为 我 
们 永远 不 知道 会 在 数据 中 发 现 什 么 。 但 是 , 当 需 要 按照 因果 关系 来 解释 从 数据 中 发 现 的 
相关 性 时 ,大 数据 便 显 得 有 些 无 能 为 力 了 。 是 海盗 造成 了 全 球 变 暖 吗 ? 是 炎热 的 天 气 使 
更 多 的 人 从 事 海盗 行为 的 吗 ? 如 果 二 者 是 不 相关 的 ,那么 近 几 年 在 全 球 变 暖 加 剧 的 同时 ， 
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海盗 的 数目 为 什么 会 持续 增加 呢 ? 我 们 难以 解释 ,而 大 数据 往往 却 能 让 我 们 去 猜想 这 些 
事情 中 的 因果 链条 。 

当 我 们 继续 收集 这 些 未 做 解释 或 未 做 充分 解释 的 发 现时 ,有 人 开始 认为 相关 性 正在 
威胁 因果 性 的 科学 基石 地 位 。 甚 至 有 人 认为 ,大 数据 将 导致 理论 的 终结 。 这 样 的 观点 有 
些 让 人 难以 接受 。 现 代 科 学 最 伟大 的 成 就 是 在 理论 方面 。 璧 如 , 爱 因 斯 坦 的 广义 相对 论 、 
达尔 文 的 自然 选择 进化 论 等 ,理论 可 以 通过 看 似 简单 的 原理 来 解释 复杂 的 现象 。 如 果 我 
们 停止 理论 探索 ,那么 我 们 将 会 忽视 科学 的 核心 意义 。 当 我 们 有 了 数 百 万 个 发 现 而 不 能 
解释 其 中 任何 一 个 时 ,这 意味 着 什么 ? 这 并 不 意味 着 我 们 应 该 放弃 对 事物 的 解释 ,而 是 意 
味 着 很 多 时 候 我 们 只 是 为 了 发 现 而 发 现 。 

第 三 个 主要 挑战 是 : 数据 产生 和 存储 的 地 方 发 生 了 变化 。 作 为 科学 家 ,我 们 习惯 于 
通过 在 实验 室 中 做 实验 得 到 数据 ,或 者 记录 对 自然 界 的 观察 数据 。 可 以 说 , 某 种 程度 上 ， 
数据 的 获取 是 在 科学 家 的 控制 之 下 的 。 但 是 ,在 大 数据 的 世界 里 ,大 型 企业 甚至 政府 拥有 
着 最 大 规模 的 数据 集 。 而 它们 自己 、 消 费 者 和 公民 们 更 关心 的 是 如 何 使 用 数据 。 很 少 有 
人 和 希望 美国 国家 税务 局 将 报税 记录 共享 给 那些 科学 家 ,虽然 科学 家 们 使 用 这 些 数 据 是 出 
于 善意 。eBay 的 商家 不 希望 它们 完整 的 交易 数据 被 公开 ,或 者 让 研究 生 随 意 使 用 。 搜 索 
引擎 日 志和 电子 邮件 更 是 涉及 个 人 隐私 权 和 保密 权 。 书 和 博客 的 作者 则 受到 版 权 保 护 。 
各 个 公司 对 所 控制 的 数据 有 着 强烈 的 产权 诉求 ,它们 分 析 自 己 的 数据 是 期 望 产生 更 多 的 
收入 和 利润 ,而 不 愿意 和 外 人 共享 其 核心 竞争 力 , 学 者 和 科学 家 更 是 如 此 。 

出 于 所 有 这 些 原因 ,一 些 最 强大 的 关于 人 类 “自我 知识 ”的 数据 资源 基本 未 被 使 用 过 。 
尽管 有 关 社 会 化 网 络 的 研究 已 经 进行 了 几 十 年 了 ,但 几乎 没有 任何 公开 的 研究 是 在 
Facebook 上 进行 的 ,因为 Facebook 公司 没有 动力 去 分 享 他 们 的 社会 化 网 络 数据 。 尽 管 
市 场 经 济 理论 已 经 有 了 几 个 世纪 的 历史 ,经 济 学 家 也 无 法 访问 主要 在 线 市 场 的 详细 交易 
记录 。 尽 管 人 类 已 经 在 绘制 世界 地 图 上 努力 了 几 千 年 ,DigitalGlobe 等 公司 也 拥有 着 地 
球 表面 的 50 厘米 分 辩 率 的 卫星 照片 ,但 是 这 些 地 图 数据 从 未 被 系统 地 研究 过 。 我 们 发 
现 , 人 们 永 无 止境 的 学 习 和 欲望 和 探索 欲望 与 这 些 数 据 之 间 的 鸿沟 大 得 惊人 。 这 类 似 于 数 
代 天 文学 家 们 一 直 在 探索 适 远 的 恒星 , 却 由 于 法 律 原因 而 不 被 允许 研究 太阳 。 

然而 ,只 要 知道 太阳 在 那里 ,人 们 对 它 的 研究 欲望 就 不 会 消退 。 如 今 , 全 世界 的 人 都 
在 跳 着 一 支 支 奇 怪 的 “交际 舞 ”。 学 者 和 科学 家 为 了 能 够 访问 企业 的 数据 ,开始 不 断 地 接 
触 工程 师 、 产 品 经 理 甚至 高 级 主管 。 有 时 候 , 最 初 的 会 谈 很 顺利 他 们 出 去 喝 喝 咖啡 ， 
随后 事情 就 会 按部就班 地 进行 。 一 年 后 ,一 个 新 人 加 入 进来 。 很 不 幸 , 这 个 人 通常 是 
律师 。 

如 果 要 分 析 谷 歌 的 图 书馆 ,我 们 就 必须 找到 应 对 上 述 挑 战 的 方法 。 数 字 图 书 所 面临 
的 挑战 并 不 是 独特 的 ,只 是 今天 大 数据 生态 系统 的 一 个 缩影 。 

资料 来 源 : [ 美 ] 埃 雷 效 。 艾 登 ,[ 法 ] 让 - 巴 蒂 斯 特 。 米 区 尔 著 , 王 彤 彤 等 译 . 可 视 化 未 来 一 一 数据 透 
视 下 的 人 文大 趋势 .杭州 : 浙江 人 民 出 版 社 ,2015 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1)“ 人 谷歌” 的 诞生 最 初 源 自 于 什么 项 目 ? 如 今 , 这 个 项 目 已 经 达到 什么 样 的 规模 ? 
这 个 规模 经 历 了 多 长 时 间 ? 对 此 ,你 有 什么 感想 ? 
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(2) 请 在 互联 网 上 搜索 “Google 图 书 ”( 谷 歌 图 书 ), 你 能 顺利 打开 这 个 网 页 吗 ? 请 记 
录 ,什么 是 “Google 图 书 ”? 
答 : 

















(3)“ 数 据 越 多 ,问题 越 多 ”, 那 么 ,我 们 面临 的 主要 挑战 是 什么 ? 
答 : 




















(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 




















51 直方 图 : 对 比 关 系 


直方 图 ,又 称 质 量 分 布 图 ,柱状 图 ,是 一 种 统计 报告 图 ,也 是 表示 资料 变化 情况 的 主要 
工具 。 直 方 图 由 一 系列 高 度 不 等 的 纵向 条 纹 或 线段 表示 数据 分 布 的 情况 ,一 般 用 横 轴 表 
示 数 据 类 型 , 纵 轴 表示 分 布 情况 。 制 作 直 方 图 的 目的 就 是 通过 观察 图 的 形状 ,判断 生产 过 
程 是 否 稳定 ,预测 生产 过 程 的 质量 。 
5.1.1 以 零 基 线 为 起 点 


零 基线 是 以 零 作 为 标准 参考 点 的 一 条 线 , 零 基线 的 上 方 规定 为 正 数 , 下 方 为 负数 , 它 
相当 于 十 字 坐 标 轴 中 的 水 平 轴 。Excel 中 的 零 基 线 通常 是 图 表 中 数字 的 起 点 线 ,一 般 只 





展示 正 数 部 分 。 若 是 水 平 条 形 图 , 零 基线 与 水 平 网 格 线 平 行 ; 若 是 垂直 条 形 图 , 则 零 基 线 
与 垂直 网 格 线 平行 。 

实例 5-1 零 基线 为 起 点 。 

如 图 5-4(a) 所 示 , 数 据 起 点 是 2000 元 ,从 中 可 以 读 出 每 个 部 门 的 日 常 开支 ,而 
图 5-4(b) 的 数据 起 点 是 0, 即 把 零 基 线 作为 起 点 。 图 5-4(a) 的 不 足 在 于 不 便于 对 比 每 个 
直 条 的 总 价值 , 乍 看 感觉 人 事 部 的 开支 是 财务 部 的 两 售 还 多 ,而 事实 上 人 事 部 的 数据 只 比 
财务 部 多 了 1500 元 。 这 种 错误 性 的 导向 就 是 数据 起 点 的 设 定 不 恰当 造成 的 。 


各 部 门 日 常 费 用 开支 





























(a) 起 点 为 2000 (b) 起 点 为 0 
图 5-4 日 常 费用 开支 直方 图 


步骤 1: 绘制 图 表 ( 图 5-4(Ca) ) 。 

步骤 2: 右键 单 击 图表 左 侧 的 坐标 轴 数 据 ,选择 “设置 坐标 轴 格 式 ” 命 令 打开 窗 格 ,在 
“坐标 轴 选 项 * 下 ,将 “边界 "组 中 的 “最 大 值 " “最 小 值 ” 和 “单位 ”组 中 的 “主要 ”、“ 次 要 ” 按 
照 图 5-4(b) 所 示 进 行 设置 ,得 到 图 5-4(b) 结 果 。 
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零 基线 在 图 表 中 的 作用 很 重要 。 在 绘图 时 ,要 注意 零 基 线 的 线条 要 比 其 他 网 格 线 线 
条 粗 ,颜色 重 。 如 果 直 条 的 数据 点 接近 于 零 , 那 还 需要 将 其 数值 标注 出 来 。 

此 外 ,要 看 懂 图 表 , 必 须 先 认 识 图 例 。 图 例 是 集中 于 图 表 一 角 或 一 侧 的 各 种 形状 和 颜 
色 所 代表 内 容 与 指标 的 说 明 。 它 具有 双重 任务 ,在 编 图 时 是 图 解 表示 图 表 内 容 的 准绳 ,在 
用 图 时 是 必 不 可 少 的 阅读 指南 。 无 论 是 阅读 文字 还 是 图 表 , 人 们 习惯 于 从 上 至 下 地 去 阅 
读 ,这 就 要 求 信息 的 因果 关系 应 明确 。 在 图 表 中 ,这 一 点 也 必须 有 所 体现 。 例 如 ,在 默认 
情况 下 图 例 都 是 在 底部 显示 的 ,应 该 将 图 例 放 在 图 信息 的 上 方 ,根据 阅读 习惯 ,自然 而 然 
地 加 快 了 阅读 速度 。 

如 果 想 删除 多 余 标 签 , 只 显示 部 分 的 数据 标签 ,可 单 击 选 中 所 有 的 数据 标签 ,然后 再 
双击 需要 删除 的 数据 标签 即 可 ;或 选中 单独 的 某 个 标签 ,再 按 Delete 键 便 可 删除 。 


5.1.2 垂直 直 条 的 宽度 要 大 于 条 间距 


在 柱状 图 或 条 形 图 中 , 直 条 的 宽度 与 相 邻 直 条 间 的 间隔 决定 了 整个 图 表 的 视觉 效果 。 
即便 表示 的 是 同一 内 容 , 也 会 因为 各 直 条 的 不 同 宽度 及 间隔 而 给 人 以 不 同 的 印象 。 如 果 
直 条 的 宽度 小 于 条 间距 , 则 会 形成 一 种 空旷 感 ,这 时 读者 在 阅读 图 表 时 注意 力 会 集中 在 空 
白 处 ,而 不 是 数据 系列 上 。 在 一 定 程度 上 会 误导 读者 的 阅读 方式 。 

实例 5-2 直 条 的 宽度 。 

如 图 5-5 所 示 ,两 组 图 表 中 ,图 5-5(a) 中 直 条 宽度 明显 小 于 条 间距 ,虽然 能 从 中 读 出 
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图 5-5 设置 直 条 的 宽度 


大 上 数 据 可 外 化 


想 要 的 数据 结果 ,但 其 表达 效果 不 如 图 5-5(Cb) 中 的 图 形 。 直 条 是 用 来 测量 零散 数据 的 ， 
如 果 其 中 的 直 条 过 窜 ,视线 就 会 集中 在 直 条 之 间 不 附带 数据 信息 的 留 白 空 间 上 。 因 此 ,将 
直 条 宽度 绘制 在 条 间距 的 一 倍 以 上 两 倍 以 下 最 为 合适 。 

步骤: 双击 图 5-5 中 的 直 条 形状 ,在 打开 的 数据 系列 格式 窗 格 的 “系列 选项 * 下 设置 
“分 类 间距 ”的 百分比 大 小 。 分 类 间距 百分比 越 大 , 直 条 形状 就 越 细 ,条 间距 就 越 大 ,所 以 
将 分 类 间距 调整 为 小 于 等 于 100% 较 为 合适 。 
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网 格 线 的 作用 是 方便 读者 在 读 图 时 进行 值 的 参考 ,Excel 默认 的 网 格 线 是 灰色 的 , 显 

示 在 数据 系列 的 下 方 。 如 果 把 一 个 图 表 中 必 不 可 少 的 元 素 称 为 数据 元 素 , 其 余 的 元 素 称 

为 非 数据 元 素 ,那么 Excel 中 的 网 格 线 属 于 非 数据 元 素 , 对 于 这 类 元 素 , 应 尽量 减弱 或 者 
直接 删除 。 例 如 ,应 该 避免 在 水 平 条 形 图 中 使 用 网 格 线 。 


s.1.3 慎 用 三 维 效果 的 柱 形 图 


在 大 多 数 情 况 下 ,三 维 效果 是 为 了 体现 立体 感 和 真实 感 的 。 但 是 ,这 并 不 适用 于 柱状 
图 ,因为 柱状 图 顶部 的 立体 效果 会 让 数据 产生 歧义 ,导致 其 失去 正确 的 判断 。 

如 果 想 用 3D 效果 展示 图 表 数 据 , 可 以 选用 圆锥 图 表 类 型 ,圆锥 效果 将 圆锥 的 顶点 指 
向 数据 ,也 就 是 在 图 表 中 每 个 圆锥 的 顶点 与 水 平 网 格 线 只 有 一 个 交点 ,使 指向 的 数据 是 唯 
一 的 、 确 定 的 。 

实例 5-3 柱 形 图 的 三 维 效果 。 

图 5-6C(a) 中 使 用 了 三 维 效果 展示 各 店 一 季度 的 销售 额 ,细心 的 读者 会 疑惑 直 条 的 顶 
端 与 网 格 线 相交 的 位 置 在 哪里 ,也 就 是 直 条 对 应 的 数据 到 底 是 多 少 并 不 明确 ,这 种 错误 在 
图 表 分 析 过 程 中 是 不 可 原谅 的 。 所 以 切记 不 能 将 三 维 效果 用 在 柱 形 图 中 , 若 要 展示 一 定 
程度 的 立体 感 , 可 以 选用 不 会 产生 歧义 的 阴影 效果 ,例如 图 5-6(b) 中 的 图 表 。 

步骤 1: 选中 三 维 效果 的 图 表 , 然 后 在 “图 表 工 具 ” 一 "设计 ?选项 卡 下 单 击 “ 类 型 ”组 中 
的 “更 改 图 表 类 型 "按钮 ,在 弹出 的 图 表 类 型 中 选择 “ 驴 状 柱 形 图 ”, 如 图 5-6(Cc) 所 示 。 

步骤 2: 如 果 想 为 图 表 设计 立体 感 ,可 以 先 选中 系列 ,在 “格式 ?选项 卡 下 设置 形状 效 
果 为 “阴影 -内 部 -内 部 下 方 ”, 效 果 如 图 5-6(b) 所 示 。 
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步骤 3: 如 果 需 要 制作 三 维 效果 的 圆锥 图 ,可 以 先 制作 成 三 维 效果 的 柱状 图 ,然后 双 
击 图 表 中 的 数据 系列 ,打开 数据 系列 格式 窗 格 , 在 “系列 选项 ”下 有 一 组 “ 柱 体形 状 ”, 单 击 
“完整 圆锥 ?按钮 , 即 可 将 图 表 类 型 设计 为 三 维 效果 的 圆锥 状 , 如 图 5-6(d) 图 所 示 。 
实验 确认 : 口 学 生 ” 口 教师 
在 图 表 制 作 中 ,图 表 系列 的 颜色 也 很 重要 。 例 如 使 用 相似 的 颜色 填充 柱 形 图 中 的 
多 直 条 ,使 系列 的 颜色 由 亮 至 上 暗 地 进 行 过 渡 布 局 ,这 样 , 较 之 于 颜色 鲜艳 分 明 , 得 到 的 
图 表 具 有 更 强 的 说 服 力 。 因 为 在 多 直 条 种 类 中 (一 般 保持 在 4 种 或 4 种 以 下 ), 前 者 在 
同一 性 质 ( 月 份 ) 下 会 使 阅读 更 轻松 ,因为 它们 的 颜色 具有 相似 性 ,不 会 因为 颜色 繁多 
而 眼花 综 乱 。 


5.1.4 用 堆积 图 表示 百分数 


柱 形 图 按 数据 组 织 的 类 型 分 为 驴 状 柱 形 图 、 堆 积 柱 形 图 和 百分比 堆积 柱 形 图 , 簇 状 柱 
形 图 用 来 比较 各 类 别 的 数值 大 小 ;堆积 柱 形 图 用 来 显示 单个 项 目 与 整体 间 的 关系 ,比较 各 
个 类 别 的 每 个 数值 占 总 数值 的 大 小 ;百分比 堆积 柱 形 图 用 来 比较 各 个 类 别 的 每 一 数值 占 
总 数值 的 百分比 。 

实例 5-4 百分比 柱 形 堆积 图 。 

如 图 5-7 所 示 ,图 表 中 的 数据 所 要 表达 的 是 4 个 月 中 某 个 新 员工 实际 完成 的 工作 量 
占 目标 工作 量 的 百分数 大 小 。 图 5-7(a) 表 中 单 色 直 条 所 代表 的 100% 数 值 完 全 就 是 画 蛇 
添 足 ,将 其 去 掉 反 而 会 让 图 表 更 加 简洁 。 如 果 想 保留 这 一 目标 百分数 ,可 以 将 “完成 率 ” 与 
“目标 值 ”所 代表 的 直 条 重合 在 一 起 ,结果 就 是 图 5-7(b) 中 的 效果 。 图 5-7(b) 中 的 图 表 从 
形式 上 加 强 了 百分数 的 表达 ,特别 是 部 分 与 整体 的 百分数 效果 更 明确 。 

步骤 1: 根据 图 5-7 中 表格 的 数据 ,绘制 并 调整 ,选中 该 系列 上 的 数据 标签 ,在 “标签 
选项 * 下 设置 “标签 位 置 ?为 “居中 ”, 完 成 直方 图 效果 如 图 5-7(a) 所 示 。 

步骤 2: 双击 图 表 中 的 “完成 率 ” 系 列 , 在 弹出 的 数据 系列 格式 窗 格 中 设置 “系列 选项 ” 
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下 “系列 重生 ”的 值 为 100% ,如 图 5-7(b) 所 示 。 
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52 折线 图 : 按时 间或 类 别 显 示 趋 势 


折线 图 是 用 直线 段 将 各 数据 点 连接 起 来 而 组 成 的 图 形 , 以 折线 方式 显示 数据 的 变化 
趋势 和 对 比 关 系 。 折 线 图 可 以 显示 随时 间 ( 根 据 常 用 比例 设置 ) 而 变化 的 连续 数据 ,因此 
非常 适用 于 显示 在 相等 时 间 间 隔 下 数据 的 趋势 。 在 折线 图 中 ,类 别 数据 沿 水 平 轴 均 匀 分 
布 , 所 有 值 数据 沿 垂直 轴 均 匀 分 布 。 

但 是 ,如 果 图 表 中 绘制 的 折线 图 折线 线条 过 多 ,会 导致 数据 难以 分 析 。 与 柱状 图 一 
样 ,折线 图 中 的 线条 数 也 不 宜 过 多 .最 好 不 要 超过 4 条。 

如 果 在 图 表 中 表达 的 产品 数 过 多 , 则 不 适宜 绘制 在 同一 折线 图 中 ,这 时 ,可 以 将 每 种 
产品 各 绘制 成 一 种 折线 图 ,然后 调整 它们 的 Y 轴 坐 标 , 使 其 刻度 值 保 持 一 致 。 这 样 不 仅 
可 以 直接 对 比 不 同 的 折线 ,还 可 以 查看 每 种 产品 自身 的 销售 情况 。 


5.2.1 减 小 Y 轴 刻 度 单位 增强 数据 波动 情况 


在 折线 图 中 ,可 以 显示 数据 点 以 表示 单个 数据 值 ,也 可 以 不 显示 这 些 数 据点 ,而 表示 
某 类 数据 的 趋势 。 如 果 有 很 多 数据 点 且 它 们 的 显示 顺序 很 重要 时 ,折线 图 尤其 有 用 。 当 
有 多 个 类 别 或 数值 是 近似 的 ,一 般 使 用 不 带 数据 标签 的 折线 图 较为 合适 。 

实例 5-5 减 小 Y 轴 刻 度 单位 。 

如 图 5-8 所 示 , 图 5-8(a) 中 的 图 表 Y 轴 边 界 是 以 0 为 最 小 值 .60 为 最 大 值 设置 的 边 
界 刻度 ,并 按 10 为 主要 刻度 单位 递增 。 而 图 5-8(b) 中 的 图 表 Y 轴 是 以 30 作为 基准 线 ， 
主要 刻度 单位 按照 5 增加 的 。 由 于 刻度 值 的 不 同 使 得 图 5-8(Ca) 中 折线 位 置 过 于 靠 上 ,给 
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人 悬空 感 ,并 且 折 线 的 变化 趋势 不 明显 ;而 图 5-8(b) 中 的 折线 占 了 图 表 的 三 分 之 二 左右 ， 
既 不 拥挤 也 不 空旷 ,同时 也 能 反映 出 数据 的 变化 情况 。 通 过 对 比 发 现 . 在 适当 时 候 更 改 折 
线 图 中 的 起 点 刻度 值 可 以 让 图 表 表 现 得 更 深刻 。 
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图 5-8 减 小 Y 轴 刻 度 单位 效果 


步骤 1: 根据 图 5-8 中 的 表格 数据 ,绘制 折线 图 ,如 图 5-8(a) 所 示 。 

步骤 2: 单 击 Y 轴 坐 标 , 打 开 坐 标 轴 格式 窗 格 , 在 “坐标 轴 选 项 ”下 输入 边界 最 小 值 
30、 边 界 最 大 值 50, 然 后 输入 主要 单位 值 5, 结 果 如 图 5-8(b) 所 示 。 

在 折线 图 中 ,Y 轴 表 示 的 是 数值 ,X 轴 表 示 的 是 时 间或 有 序 类 别 。 在 对 立轴 刻度 进行 优 
化 后 ,还 应 该 对 X 轴 的 一 些 特殊 坐标 轴 进 行 编辑 。 例 如 常见 的 带 年 月 的 日 期 横 坐 标 轴 ,如 
果 是 同年 内 一 般 只 显示 月 份 即 可 ,如 果 是 不 同年 份 的 数据 点 ,就 需要 显示 清楚 哪 年 哪 月 。 

像 图 5-9(Ca) 中 的 横 坐 标 就 显得 兄长 。 这 时 若 将 相同 年 份 中 的 月 份 省 略 年 份 , 显 示 就 
会 轻松 很 多 ,可 在 数据 源 中 重新 编辑 .重新 制作 的 图 表 效 果 如 图 5-9(b) 所 示 。 对 比 两 张 
图 表 , 后 者 横 轴 的 日 期 文本 确实 更 清楚 ,一 看 就 能 明白 月 份 属于 何 年 。 





A B Cc D E F 5 H I 于 区 
月 份 “] 2015 年 9 月 |2015 年 10 月 |2015 年 11 月 |2015 年 这 月 | 2016 年 1 月 | 2016 年 2 月 | 2016 年 3 月 | 2016 年 4 月 | 2016 年 5 月 | 2016 年 6 月 
A 店铺 | 5 65 | 64 | ?7 | 73 | ?78 | 393 | 69 | 71 

B 店 铺 52 53 | 358 | 62 59 64 65 69 72 68 
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5.2.2 突出 显示 折线 图 中 的 数据 点 


在 图 表 中 单 击 , 进 而 在 图 表 右 侧 单 击 出 现 的 “图 表 元 素 ” 项 , 勾 选 “数据 标签 ”, 可 为 图 
表 加 上 数据 标签 ,也 可 以 单 击 出 现 的 数据 标签 ,选择 删除 个 别 不 需要 出 现 的 数据 标签 。 

除了 数据 标签 能 直接 分 辨 出 数据 的 转折 点 外 ,还 有 一 个 方法 ,就 是 在 系列 线 的 拐弯 处 
用 一 些 特殊 形状 标记 出 来 ,这 样 就 可 以 轻易 分 辨 出 每 个 数据 点 了 。 

虽然 折线 图 和 柱状 图 都 能 表示 某 个 项 目的 趋势 ,但 是 柱状 图 更 加 注重 直 条 本 身长 度 ， 
即 直 条 所 表示 的 值 ,所 以 一 般 都 会 将 数据 标签 显示 在 直 条 上 。 而 车 在 较 多 数据 点 的 折线 
图 中 显示 数据 点 的 值 , 不 但 数据 之 间 难 以 辨别 所 属 系列 ,而 且 整 个 图 表 会 失去 美观 性 。 只 
有 在 数据 点 相对 较 少 时 ,显示 数据 标签 才 可 取 。 

实例 5-6 ”显示 数据 点 。 

为 了 表示 数据 点 的 变化 位 置 , 需 要 特意 将 转折 点 标示 出 来 。 图 5-10(a) 中 用 数据 标签 
标注 各 转折 点 的 位 置 ,但 并 不 直接 ,而 且 不 同 折线 的 数据 标签 容易 重 释 ,使 得 数字 难以 辩 
认 。 而 图 5-10(b) 中 在 各 转折 点 位 置 显 示 比 折线 线条 更 大 ,颜色 更 深 的 圆 点 形状 ,整个 图 
表 的 数据 点 之 间 不 仅 容 易 分 辨 ,而 且 图 表 也 显得 简单 。 除 此 之 外 ,还 特意 将 每 条 折线 的 最 
高 点 和 最 低 点 用 数据 标签 显示 出 来 。 


A 于 | 达 | 守 | 计 | 守 1] |ili|ITI 和 | 二 | 入 











1 月 份 1 月 |2 月 | | 表 4 月 | 5 月 | 6 月 | 7 月 ] 明 | 9 月 [io 月 | 11 月 | 12 月 

2 平板 电视 134 i164 | 139 180 | 167 | [5| 156 | 162| 149 | 138 140| 122 

3 | LED 电 视 130 12 | 118 | 120| 122 | 130 | 123 | 115 9) 12| 120| 130 

4 | 条 能 电视 | 81| 力 | 史 | %| 89| 80| 力 | 到 | 75| 5| 到 | 84 

5 | 

6 
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(a) (b) 
图 5-10 显示 数据 点 效果 


步骤 1: 双击 图 表 中 的 任意 系列 打开 数据 系列 格式 窗 格 , 在 “系列 选项 ”组 中 单 击 填充 
图 标 , 然 后 切换 至 “标记 ”选项 列表 下 , 单 击 “ 数 据 标记 选项 "展开 下 拉 列 表 , 在 展开 的 列表 
中 单 击 * 内 置 ? 单 选 按钮 ,再 设置 标记 “类 型 为 圆 形 。 同 样 在 “标记 ”列表 下 , 单 击 “ 填 充 ” 按 
钮 展开 列表 ,在 列表 中 设置 颜色 为 深蓝 色 。 

步骤 2: 选择 图 表 中 的 其 他 系列 进行 类 似 步 又 1 的 设置 。 

步骤 3: 在 折线 图 中 标记 各 数据 点 时 ,选择 不 同 的 形状 可 标记 不 同 的 效果 。 但 是 在 设 
置 标记 点 的 类 型 时 有 必要 调整 形状 的 大 小 ,使 其 不 至 于 太 小 难以 分 辨 ,也 不 至 于 过 大 削弱 
折线 本 身 的 作用 。 系 统 默认 的 标记 点 大 小 为 5: 可 单 击 数字 微调 按钮 进行 调整 (例如 将 大 
小 调整 为 10)。 


第 回馈 (9 铬 所 可 钢 人 全身 用 


选择 好 标记 数据 点 的 形状 类 型 后 .根据 折线 的 粗细 调整 形状 大 小 ,再 为 形状 填充 不 同 
于 折线 本 身 的 线条 颜色 加 以 强调 。 
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s.2.3 通过 面积 图 显示 数据 总 额 


在 折线 图 中 添加 面积 图 ,属于 组 合 图 形 中 的 一 种 。 面 积 图 又 称 区 域 图 , 它 强调 数量 随 
时 间 而 变化 的 程度 ,可 引起 人 们 对 总 值 趋势 的 注意 。 例 如 ,表示 随时 间 而 变化 的 利润 的 数 
据 时 ,可 以 绘制 折线 图 并 在 其 中 添加 面积 图 以 强调 总 利润 。 

实例 5-7 ”面积 图 。 

图 5-11(a) 中 的 折线 图 展示 了 1 月 份 A 产品 不 同 单价 的 销售 量 差 异 情况 ,从 图 表 中 
可 看 出 这 段 时 间 的 销售 额 波动 不 大 ;而 图 5-11(b) 中 的 折线 图 十 面积 图 不 仅 显示 了 这 段 
时 间 内 销量 的 差异 情况 ,而 且 在 折线 下 方 有 颜色 的 区 域 还 强调 了 这 段 时 间 内 销售 总 额 的 
情况 , 即 销售 额 等 于 横 坐 标 值 乘 以 纵 坐 标 值 。 从 对 比 结果 中 可 发 现 ,在 分 析 利 润 额 数据 
时 ,为 折线 图 添加 面积 图 会 有 一 个 更 直接 、 更 明确 的 效果 。 








A | 生 | 于 | 于 | 家 | 证 | 半 | 入 
x | a [sale [es Tw Ts | [ssl 95 Tw TwosT 11 
2 | 销售 额 | 485| S10| 480| 460| 505| 550| 560| 580| 500| 50| 460 480 5 
3 | 销售 额 | 485| 510| 480| 460| 505| 5 560| 580 S500 S20) 460| 480| 5 
4 
5 
B 1 月 A 产品 不 同 单价 的 销量 走势 图 1 月 A 产品 不 同 单价 的 销量 走势 图 
了 0 00 
. so0 oo ~ Es so0 
10| 山 和 0 机 
| 二 站 am 
12 | 对 200 向 200 
笃 100 100 
14 
15 加 
吉 5 55 6 65 7 75 8 35 9 95 19010511 5 55 6 .65 775 8 85 9 95 10105 了 1 
(a) (b) 
图 5-11 面积 图 


步骤 1: 依据 图 5-11 表格 中 的 单价 、 销 售 额 (一 行 ) 数 据 ,绘制 折线 图 ,如 图 5-11(a) 所 
示 。 注 意 设置 坐标 轴 标 题 .突出 显示 折线 图 中 的 数据 点 。 

步骤 2: 增加 一 组 与 数据 源 中 * 销 售 额 ”一 样 的 数据 ( 见 图 5-11 中 的 表格 ), 然 后 用 两 
组 一 模 一 样 的 销售 额 数据 和 日 期 数据 绘制 折线 图 ,两 个 系列 完全 重合 ,结果 如 图 5-11(a) 
所 示 。 选 中 图 表 , 在 “图 表 工 具 ”>“ 设 计 ” 选 项 卡 下 , 单 击 “ 类 型 "组 中 的 “更 改 图 表 类 型 " 按 
钮 ,在 弹出 的 对 话 框 中 ,系统 默认 在 “组 合 "选项 下 设置 其 中 一 个 销售 额 系列 为 “ 带 数据 标 
记 的 折线 图 ”, 另 一 个 销售 额 系列 为 “面积 图 ”如 图 5-11(b) 所 示 。 

步骤 3: 将 添加 的 折线 图 改 为 面积 图 后 :删除 图 例 .双击 图 表 中 的 面积 区 域 ,弹出 数据 
系列 格式 窗 格 ,在 “系列 选项 * 下 单 击 “填充 ?按钮 ,然后 在 展开 的 下 拉 列 表 中 为 面积 图 选择 
一 种 浅 色 填充 ,并 设置 其 “透明 度 ” 为 50% ,如 图 5-11(b) 所 示 。 

如 果 需 要 在 同一 图 表 中 绘制 多 组 折线 ,也 同样 可 以 参考 上 面 的 方法 和 样式 进行 设计 
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制作 ,但 在 操作 过 程 中 需要 注意 数据 系列 的 和 至 放 顺 序 问 题 。 





实验 确认 : 


53 圆 饼 图 : 部 分 占 总 体 的 比例 


圆 饼 图 是 用 扇形 面积 ,也 就 是 圆心 角 的 度数 来 表示 数量 。 圆 饼 图 主要 用 来 表示 组 数 
不 多 的 品质 资料 或 间断 性 数量 资料 的 内 部 构成 , 仅 有 一 个 要 绘制 的 数据 系列 ,要 绘制 的 数 
值 没有 负 值 ,也 几乎 没有 零 值 , 各 类 别 分 别 代表 整个 圆 饼 图 的 一 部 分 ,各 个 部 分 需要 标注 
百分比 , 且 各 部 分 百分比 之 和 必须 是 100%。 圆 饼 图 可 以 根据 圆 中 各 个 扇形 面积 的 大 小 ， 
来 判断 某 一 部 分 在 总 体 中 所 占 比 例 的 多 少 。 


5.3.1 重视 圆 饼 图 扇 区 的 位 置 排序 


实例 5-8 圆 饼 图 扇 区 。 

在 图 5-12(a) 中 ,数据 是 按 降序 排列 的 .所 以 圆 饼 图 中 切片 的 大 小 以 顺 时 针 方 向 逐渐 
减 小 。 这 其 实 不 符合 读者 的 阅读 习惯 。 人 们 习惯 从 上 至 下 地 阅读 ,并 且 在 圆 饼 图 中 ,如 果 
按 规定 的 顺序 显示 数据 ,会 让 整个 圆 饼 图 在 垂直 方向 上 有 种 失衡 的 感觉 ,正确 的 阅读 方式 
是 从 上 往 下 阅读 的 同时 还 会 对 圆 饼 图 左右 两 边 切片 大 小 进行 比较 。 所 以 需要 对 数据 源 重 
新 排序 ,使 其 呈现 出 如 图 5-12(b) 的 效果 。 
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图 5-12 圆 饼 图 扇 区 


步骤 1: 为 了 让 圆 饼 图 的 切片 排列 合理 ,需要 将 原始 的 表格 数据 重新 排序 ,其 排序 结果 
如 图 5-12(b) 中 的 表 所 示 , 这 样 排序 的 目的 是 将 切片 大 小 合理 地 分 配 在 圆 饼 图 的 左右 两 侧 。 
圆 饼 图 的 切片 分 布 一 般 是 将 数据 较 大 的 两 个 扇 区 设置 在 水 平方 向 的 左右 两 侧 。 其 
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实 , 除 了 通过 更 改 数据 源 的 排序 顺序 改变 圆 饼 图 切片 的 分 布 位 置 外 ,还 可 以 对 圆 饼 图 切片 
进行 旋转 ,使 圆 饼 图 的 两 个 较 大 扇 区 分 布 在 左右 两 侧 。 
步骤 2: 双击 圆 饼 图 的 任意 局 区 ,打开 “设置 数据 系列 格式 " 窗 格 , 在 “系列 选项 "组 中 调 

整 "第 一 扇 区 起 始 角度 ”为 240 ,即将 原始 的 圆 饼 图 第 一 个 数据 的 切片 按 顺 时 针 旋 转 240”。 
实验 确认 : 口 学 生 教师 




















5.3.2 分 离 圆 饼 图 扇 区 强调 特殊 数据 


用 颜色 反差 来 强调 需要 关注 的 数据 在 很 多 图 表 中 是 较 适 用 的 ,但 是 圆 饼 图 中 ,有 一 种 
更 好 的 方式 来 表达 , 那 就 是 将 需要 强调 的 扇 区 分 离 出 来 。 

实例 5-9 分 离 圆 饼 图 。 

在 图 5-13(b) 中 ,为 了 强调 空调 在 一 季度 所 有 家 电 销 售 额 中 的 占 比 情况 ,将 空调 所 代 
表 的 扁 区 单独 分 离 出 来 ,这 不 但 能 抢夺 读者 的 眼球 .而 且 整 个 圆 饼 图 在 颜色 的 搭配 上 也 不 
失 彩 ,效果 显得 比 图 5-13(a) 更 好 。 








A B Cc 了 下 是。 
1 | 产品 电视 | 空调 | 风 房 | 洗衣 机 
2 | 销售 额 20%| 15%| 21%| 13 
3 | 
| 产品 一 季度 销售 额 占 比 情况 产品 一 季度 销售 额 占 比 情况 
6 
| 
8 | 
号 | 


(a) (b) 
图 5-13 分离 圆 饼 图 扇 区 


步骤 1: 依据 图 5-13 表格 中 的 数据 绘制 圆 饼 图 ,如 图 5-13(a) 所 示 。 

步骤 2: 双击 圆 饼 图 打开 “设置 数据 系列 格式 ” 窗 格 ,再 单 击 需要 被 强调 的 扇 区 (系列 
为 “空调 ”) ,然后 在 “系列 选项 "组 下 设置 “点 爆炸 型 "的 百分比 值 为 22%% ,即将 所 选中 的 忆 
区 单独 分 离 出 来 。 由 于 分 离 的 扇 区 显示 在 图 表 下 方 ,需要 调整 “第 一 扇 区 起 始 角度 ” 值 为 
53" 来 改变 扇 区 位 置 ,使 其 显示 在 图 表 的 左边 区 域 . 如 图 5-13(b) 所 示 。 

在 圆 饼 图 中 ,为 了 显示 各 部 分 的 独立 性 ,可 以 将 圆 饼 图 的 每 个 部 分 独立 分 割 开 ,这 样 
的 图 表 在 形式 上 胜 过 没有 被 分 开 的 扇 区 。 

步骤 3: 分 割 圆 饼 图 中 的 每 个 户 区 与 单独 分 离 某 个 扇 区 的 原理 是 一 样 的 ,首先 选中 整 
个 圆 饼 图 ,在 “设置 数据 系列 格式 ” 窗 格 中 , 单 击 “ 系 列 选项 "图标 ,在 “系列 选项 "组 中 调整 
“ 圆 饼 图 分 离 程度 ” 值 为 8% 。 

“ 圆 饼 图 分 离 程度 ”的 值 越 大 , 扇 区 之 间 的 空隙 也 就 越 大 。 注 意 , 由 于 选取 的 是 整个 圆 
饼 图 ,所 以 在 “第 一 扇 区 起 始 角度 ?下 方 显示 的 是 * 圆 饼 图 分 离 程度 " ,如果 选中 的 是 某 个 扇 
区 , 则 ”* 第 一 扇 区 起 始 角度 ”下方 显 示 的 就 是 “点 爆炸 型 。 








实验 确认 : 口 学 生 教师 
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5.3.3 用 半 个 圆 饼 图 刻画 半期 内 的 数据 


一 个 圆 形 无 论 从 时 间 上 还 是 空间 上 给 读者 都 是 一 种 完整 感 , 当 圆 形 缺 失 某 个 角 时 ， 
会 让 人 产生 “有 些 数据 不 存在 ”的 直觉 。 在 此 基础 上 ,可 以 对 圆 饼 图 进行 升级 处 理 , 将 
表示 半期 内 的 数据 用 圆 饼 图 的 一 半 展 示 ,这样 在 时 间 上 就 会 引导 读者 联想 到 后 半期 的 
数据 。 

实例 5-10” 半 个 圆 饼 图 。 

在 图 5-14(a) 中 ,数据 的 表现 形式 是 准确 无 误 的 ,而 图 5-14(d) 的 整个 圆 饼 图 只 显示 
了 一 半 的 效果 ,但 是 从 三 维 效 果 中 可 以 看 出 这 个 图 形 是 完整 的 ,其 表示 的 数据 之 和 与 
图 5-14(c) 中 一 致 , 正 是 因为 图 表 只 展示 了 一 半 效 果 , 在 图 表意 义 上 就 比 图 5-14(c) 更 胜 一 
筹 。 半 个 圆 饼 图 表示 公司 上 半年 的 销售 额 比 使 用 一 个 整体 的 圆 饼 图 更 有 意义 ,这 半 个 圆 
饼 图 不 是 数据 只 有 一 半 ,而 是 表示 在 一 个 完整 的 时 期 内 的 前 半期 数据 。 
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(0) (d) 
图 5-14 半 个 圆 饼 图 


步骤 1: 根据 图 5-14(a) 中 的 数据 绘制 圆 饼 图 ,如 图 5-14(c) 所 示 。 

步骤 2: 将 数据 源 中 各 类 别 的 销售 额 汇 总 ,如 图 5-14(b) 所 示 , 在 制作 图 表 时 ,需要 将 
“总 计 ? 项 作为 源 数据 。 

步骤 3: 选中 圆 饼 图 ,打开 * 设 置 数据 系列 格式 ” 窗 格 ,在 “系列 选项 ”组 下 设置 “第 一 
扇 区 起 始 角度 " 值 为 270" ,如 图 5-14(c) 所 示 。 然 后 单 击 图 表 中 总计? 系列 所 在 扇 区 ， 
在 窗 格 中 单 击 * 填 充 ? 组 中 的 “纯色 填充 -白色 ”( 或 “无 填充 ?) 单 选 按钮 ,如 图 5-14(d) 
所 示 。 

这 样 ,在 图 表 中 不 仅 展示 了 公司 上 半年 的 销售 额 情况 ,还 指出 需要 被 关注 的 下 半年 的 
销售 额 。 





实验 确认 : 口 学 生 教师 
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常见 的 圆 饼 图 有 平面 圆 饼 图 三 维 圆 饼 图 、 复 合 圆 饼 图 、 复 合 条 圆 饼 图 和 圆 环 图 ,它们 
在 表示 数据 时 各 有 千秋 。 但 无 论 哪 种 类 型 的 圆 饼 图 ,都 不 适 于 表示 数据 系列 较 多 的 数据 ， 
数据 点 较 多 只 会 降低 图 表 的 可 读 性 ,不 利于 数据 的 分 析 与 展示 。 


5.3.4 ”让 多 个 圆 饼 图 对 象 重合 展示 对 比 关系 


任何 看 似 复杂 的 图 形 都 是 由 简单 的 图 表 释 加 、 重 组 而 成 的 。 有 时 为 了 凸显 信息 的 完 
整 性 ,需要 将 分 散 的 点 聚集 在 一 起 ,在 图 表 的 设计 中 也 需要 利用 这 一 思想 来 优化 图 表 , 让 
图 表 在 表达 数据 时 更 直接 有 效 。 

实例 5-11 堆 释 圆 饼 图 。 

在 图 5-15(a) 中 ,用 了 三 个 独立 的 图 表 展示 三 个 店 的 利润 结构 ,如 果 将 这 三 个 店 看 作 
一 个 整体 ,这 样 分 散 的 展示 不 方便 读者 进行 对 比 。 若 将 三 个 图 表 进行 释 加 组 合 在 一 起 ,如 
图 5-15(b) 所 示 , 这 样 不 仅 能 表示 出 整个 公司 是 一 个 整体 ,还 能 使 各 店 之 间 形 成 一 种 强烈 
的 对 比 关系 ,视觉 效果 和 信息 传递 的 有 效 性 比 图 5-15(a) 要 强 。 所 以 在 图 表 的 展示 过 程 
中 ,不 仅 需 要 数据 的 清晰 表达 ,还 需要 在 形式 上 做 到 “精益 求 精 ”。 

A B C 
[系列 | A | RB | 
店铺 A 


| 店铺 B | 
店铺 C 













(a) (b) 
图 5-15 ” 堆 麦 圆 饼 图 


步骤 1: 依据 图 5-15 中 的 数据 表格 分 别 绘制 三 个 店 的 圆 饼 图 ,图 表 区 设置 为 “无 填 
充 " 和 “无 线条 ”样式 ,如 图 5-15(a) 所 示 。 

步骤 2: 打开 “设置 数据 点 格式 " 窗 格 ,设置 每 个 圆 饼 图 中 第 一 扇 区 起 始 角 度 值 , 使 三 
个 圆 饼 图 的 “系列 A” 所 表示 的 扇 区 显示 在 图 表 的 里 边 。 再 缩放 店 2 和 店 3 图 表 到 合适 比 
例 , 然 后 依次 层 秋 地 放置 在 圆 饼 图 上 。 

步骤 3: 将 三 个 圆 饼 图 重 和 至 在 一 起 后 ( 按 Ctrl 选择 三 个 圆 饼 图 ) , 单 击 “ 图 表 工 具 ” 一 
“格式 ?选项 卡 下 * 排 列 ? 组 中 的 组 合 按钮 ,最 终 效果 如 图 5-15(b) 所 示 。 

实验 确认 : 口 学 生 教师 
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54 散 点 图 : 表示 分 布 状态 


散 点 图 ,在 回归 分 析 中 是 指数 据点 在 直角 坐标 系 平面 上 的 分 布 图 ,通常 用 于 比较 跨 类 
别 的 聚合 数据 。 散 点 图 中 包含 的 数据 越 多 ,比较 的 效果 就 越 好 。 

散 点 图 通常 用 于 显示 和 比较 数值 ,如 科学 数据 、 统 计数 据 和 工程 数据 。 当 不 考虑 时 间 
的 情况 而 比较 大 量 数据 点 时 , 散 点 图 就 是 最 好 的 选择 。 在 默认 情况 下 , 散 点 图 以 圆 点 显示 
数据 点 。 如 果 在 散 点 图 中 有 多 个 序列 ,可 考虑 将 每 个 点 的 标记 形状 更 改 为 方形 .三 角形 、 
萎 形 或 其 他 形状 。 


5.4.1 用 平滑 线 连 接 散 点 图 增强 图 形 效果 


实例 5-12 平滑 线 连接 散 点 图 。 

图 5-16(a) 是 普通 的 散 点 图 ,数据 点 的 分 布展 示 了 不 同年 龄 段 的 月 平均 网 购 金额 ,从 
图 表 中 可 以 分 析出 月 平均 网 购 金 额 较 高 的 人 群 主要 集中 30 岁 左 右 ;但 是 对 比 图 5-16(b) ,发 
现在 连续 的 年 龄 段 上 ,图 5-16(a) 中 的 数据 较 密 的 点 不 容易 区 分 ,而 图 5-16(b) 中 将 所 有 
数据 点 通过 年 龄 的 增加 连接 起 来 ,不 但 表示 了 数据 本 身 的 分 布 情况 ,还 表示 了 数据 的 连续 
性 。 用 带 平滑 线 和 数据 标记 的 散 点 图 来 表示 这 样 的 数据 比 普通 的 散 点 图 效果 更 好 。 
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图 5-16 平滑 线 连接 散 点 图 


步骤 1: 依据 图 5-16 中 表格 的 数据 绘制 散 点 图 ,如 图 5-16(a) 所 示 。 

步骤 2: 选中 图 表 , 在 “图 表 工 具 ” 一 “设计 ”选项 卡 下 的 “类 型 "组 中 单 击 “ 更 改 图 表 类 
型 "按钮 ,然后 在 弹出 的 对 话 框 中 单 击 XY 散 点 图 中 的 “ 带 平滑 线 和 数据 标记 的 散 点 图 ”。 

步骤 3: 更 改 图 表 类 型 后 , 单 击 图 表 中 的 数据 系列 ,在 数据 系列 窗 格 中 , 单 击 填充 图 标 
下 的 “标记 ”按钮 ,然后 将 线条 颜色 改 为 与 标记 点 相同 的 深蓝 色 , 如 图 5-16(b) 所 示 。 

实验 确认 : 口 学 生 教师 

气泡 图 与 XY 散 点 图 类 似 , 不 同 之 处 在 于 ,XY 散 点 图 对 成 组 的 两 个 数值 进行 比较 ; 

而 气泡 图 允许 在 图 表 中 额外 加 入 一 个 表示 大 小 的 变量 ,所 以 气泡 图 是 对 成 组 的 三 个 数值 
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进行 比较 , 且 第 三 个 数值 用 来 确定 气泡 数据 点 的 大 小 。 
5.4.2 将 直角 坐标 改 为 象限 坐标 凸显 分 布 效果 


制作 气泡 图 一 般 是 为 了 查看 被 研究 数据 的 分 布 情况 ,所 以 在 设计 气泡 图 时 ,运用 数学 
中 的 象限 坐标 来 体现 数据 的 分 布 情况 是 最 直接 的 。 这 时 图 表 被 划分 的 象限 虽然 表示 了 数 
据 的 大 小 ,但 不 一 定 出 现 负 数 , 这 需要 根据 实际 被 研究 数据 本 身 的 范围 来 确定 。 

实例 5-13 象限 坐标 。 

对 比 图 5-17(a) 和 图 5-17(b) 可 以 发 现 ,前 者 虽然 能 看 出 每 个 气泡 (地 区 ) 的 完成 率 和 
利润 率 , 但 是 没有 后 者 的 效果 明显 ,因为 在 “设置 后 "中 将 完成 率 和 利润 率 划 分 了 四 个 范围 
(四 个 象限 ) ,通过 每 个 象限 出 现 的 气泡 判断 各 地 区 的 项 目 进度 和 利润 情况 ,而且 根据 气泡 
所 在 象限 位 置 ,地 区 之 间 的 对 比 也 更 加 明显 。 另 外 ,在 图 5-17(a) 中 气泡 上 显示 了 地 区 名 
称 ,这 一 点 在 图 5-17(a) 中 没有 体现 出 来 。 
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5-17 象限 坐标 


步骤 1: 选 定 数据 区 域 中 的 任意 单元 格 ,插入 散 点 图 中 的 气泡 图 ,如 图 5-17(a) 所 示 。 
步骤 2: 打开 “选择 数据 源 ” 对 话 框 , 单 击 对 话 框 中 的 “编辑 ”按钮 ,在 “编辑 数据 系列 ” 





对 话 框 中 设置 各 项 内 容 , 如 图 5-18 所 示 。 纺 和 2 
步骤 3: 双击 纵 坐标 轴 , 在 坐标 轴 格 式 窗 格 中 | as 
单 击 “坐标 轴 选 项 ,在 展开 的 列表 中 单 击 * 横 坐标 “| sheensast | wm 
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轴 系 列 值 00: 
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“ 纵 坐 标 轴 交 叉 ? 组 中 的 “坐标 轴 值 ?为 0. 45。 到 气 泡 大 小 3): 
步骤 4: 选中 图 表 中 的 气泡 并 右 击 ,在 弹出 的 、|[Esheemos2s07 “ 国 -各 弛 加 吉 - 
快捷 列表 中 单 击 * 添 加 数据 标签 "然后 选中 标签 Ca 














右 击 ,再 单 击 快捷 列表 中 的 “设置 数据 标签 格式 ” ” 图 5-18 “编辑 数据 系列 "对 话 框 


大 数 电 加 锣 比 


命令 ,在 弹出 的 数据 标签 窗 格 中 ,取消 “标签 包括 ”组 中 的 “Y 值 ”, 重 新 勾 选 “单元 格 中 的 
值 复 选 框 ,并 在 弹出 的 对 话 框 中 选择 表格 中 的 “地 区 ” 列 , 这 一 操作 是 将 地 区 名 称 显示 出 
来 。 然 后 设置 “标签 位 置 ?为 “居中 ?方式 ,完成 效果 如 图 5-17(b) 所 示 。 

实验 确认 : 口 学 生 教师 


55 侧重 点 不 同 的 特殊 图 表 


除了 直方 图 、 折 线 图 、 圆 饼 图 、 散 点 图 等 传统 数据 分 析 图 表 外 ,还 有 一 些 特殊 的 数据 图 
表 可 用 于 不 同 的 数据 分 析 和 可 视 化 要 求 , 例 如 子弹 图 、 温 度 计 、 滑 珠 图 、 漏 斗 图 等 。 


5.5.1 用 子弹 图 显示 数据 的 优 劣 


在 Excel 中 做 子弹 图 ,能 清晰 地 看 到 计划 与 实际 完成 情况 的 对 比 ,常常 用 于 销售 、 营 
销 分 析 、 财 务 分 析 等 。 用 子弹 图 表示 数据 ,使 数据 相互 的 比较 变 得 十 分 容易 。 同 时 读者 也 
可 以 快速 地 判断 数据 和 目标 及 优 劣 的 关系 。 为 了 便于 对 比 ,子弹 图 的 显示 通常 采用 百 分 
比 而 不 是 绝对 值 。 

实例 5-14 ”子弹 图 。 

图 5-19(d) 是 一 张 子 弹 图 ,看 似 复杂 的 样式 却 隐藏 了 更 多 的 信息 。 如 果 读 者 清楚 子 
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5-19 子弹 图 


第 (5 人 寓 (Extej 数据 可 钢化 应用 


弹 图 的 表达 意义 ,就 能 很 快 地 从 图 5-19(d) 中 分 析出 每 月 的 销售 额 完成 情况 与 目标 值 的 
差异 ,还 能 看 出 每 月 销售 额 的 优 劣 等 级 。 图 5-19(d) 的 实现 其 实 就 是 通过 填充 不 同 颜色 ， 
再 辅助 使 用 系列 选项 的 分 类 间隔 来 实现 的 。 

步骤 1: 图 5-19 的 表格 数据 中 的 “一 般 ”“ 良 好 ”“ 优 秀 ” 三 行 数据 主要 是 根据 需要 显 
示 的 堆积 柱 形 图 的 直 条 长 度 而 设 定 输 入 的 。 选 取 单元 格 区 域 Al1:G6, 插 和 人 堆积 柱 形 图 ， 
结果 如 图 5-19(a) 所 示 。 

步骤 2: 双击 图 表 中 的 “实际 ”系列 ,在 数据 系列 格式 窗 格 中 的 “系列 选项 ”下 选择 “次 
坐标 轴 ”, 并 设置 “分 类 间距 ” 值 为 300% ,此 时 图 表 的 样式 如 图 5-19(b) 所 示 。 

步骤 3: 打开 “更 改 图 表 类 型 "对 话 框 ,设置 “目标 ”系列 的 图 表 类 型 为 “ 带 直线 和 数据 
标记 的 散 点 图 ”"。 此 操作 是 让 目标 数据 以 数据 标记 的 形式 显示 出 来 ,与 其 他 系列 的 柱 形 加 
以 区 别 ,如 图 5-19(c) 所 示 。 

步骤 4: 删除 次 要 坐标 轴 , 然 后 选中 带 数据 标记 的 散 点 图 ,在 数据 系列 格式 窗 格 中 , 单 
击 * 填 充 图 标 ” 下 的 “标记 ”数据 标记 选项 *, 然 后 设置 标记 的 “类 型 ”( 短 横 ) 和 “大 小 ” 
(15)。 回 到 图 表 中 ,分 别 将 数据 系列 一般“ 良好 ”、“ 优 秀 ”"“ 实 际 ” 由 深 至 浅 地 填充 颜 
色 , 得 到 如 图 5-19(d) 所 示 的 效果 。 最 后 对 图 表 进 行 深度 优化 ,如 标题 名 称 、 字 体 样式 等 。 

实验 确认 : 口 学 生 教师 














5.5.2 用 温度 计 展 示 工 作 进度 

温度 计 式 的 Excel 图 表 比 较 形 象 地 动态 显示 某 项 工作 完成 的 百分比 ,指示 出 工作 的 
进度 或 某 些 数据 的 增长 。 这 种 图 表 就 像 一 个 温度 计 一 样 , 会 根据 数据 的 改动 随时 发 生 直 
观 的 变化 。 要 实现 这 样 一 个 图 表 效果 ,关键 是 用 一 个 单一 的 单元 格 (包含 百分比 值 ) 作 为 
一 个 数据 系列 ,再 对 图 表 区 和 柱 形 条 填充 具有 对 比 效果 的 颜色 。 

实例 5-15 ”温度 计 图 。 

图 5-20(a) 和 图 5-20(b) 都 反映 了 半 个 月 内 员工 的 工作 进度 ,图 5-20(b) 中 以 员工 实 
际 拜 访客 户 数 作 为 纵 坐 标 值 , 将 “目前 总 数 ”" 和 “目标 数 ” 用 两 个 柱 形 表示 。 而 图 5-20(a) 中 
用 实际 拜访 的 客户 数 除 以 目标 数 的 百分比 作为 纵 坐 标 值 ,在 图 表 中 只 展示 “达成 率 ” 这 个 











A B c D E 下 
1 天 数 ”| 客户 数 i 
2 | 第 天 | 10 达成 率 
3 | 第 2 天 15 100% 
4 | 第 3 天 21 0% 
5 | Ws | 1s on 客户 数 进 度 
6 | 第 天 | 29 a 
7 | 第 6 天 40 2 300 
8 ”第 7 天 eax a 
9 | 第 8 天 i 
10 | 第 9 天 | 
11 | 第 10 天 150 
12 100 
13 | 目前 总 数 | 133 20% 而 
14 | 目标 妇 | 300 | 10% 
o 
| 这 成 素 | 4 | 0% 目前 将 数 目标 数 


(b) 





图 5-20 温度 计 图 
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值 。 表 格 中 的 “达成 率 ” 是 一 个 动态 的 数值 , 当 数据 逐渐 录入 完成 后 “达成 率 ” 也 就 越 来 越 
接近 100%% ,图 表 中 的 红色 区 域 也 就 逐渐 掩盖 黑色 区 域 , 像 一 个 温度 计 达 到 最 高 温度 那 
样 。 用 温度 计 似 的 图 表 来 表示 这 样 的 动态 数据 很 实用 。 

步骤 1: 在 工作 表 中 选择 单元 格 B18, 插 入 筷 状 柱 形 图 ,结果 如 图 5-21(a) 所 示 。 

步骤 2: 选中 图 表 , 在 “图 表 工 具 ” 一 “格式” 选项 卡 下 的 “大 小 ”组 中 设置 图 表 的 高 度 为 
9.74 厘米 、 宽 度 为 4. 04 厘米 ,再 删除 横 坐 标 轴 ,图表 样式 图 5-21(b) 所 示 。 


达成 率 达成 率 达成 率 达成 率 
So% Sox 100% 100% 
45% 45% So% So% 
40% 40% 0% aox 
人 35% 70% 70% 
和 30% 0% 6ow 
过 25% So% So% 
: : : 国 : 
10% 15% 30% 30% 
又 10% 20% 20% 
0% 5% 10% 10% 
1 0% om% 0% 
(a) (b) (9) (d) 


图 5-21 制作 温度 计 效 果 


步骤 3: 选中 图 表 中 的 柱 形 , 在 数据 系列 格式 窗 格 中 的 “系列 选项 ”下 设置 “分 类 间距 ” 
为 0( 系 列 重生 为 一 27%)。 再 单 击 纵 坐 标 轴 , 窗 格 内 容 切 换 至 “设置 坐标 轴 格式 ”下 ,在 
“坐标 轴 选 项 ”组 中 设置 边界 “最 大 值 ” 为 1.0、“ 主 要 ”刻度 单位 为 0.1。 设 置 完 坐标 轴 选 项 
后 图 表 样 式 变 为 图 5-21(c) 所 示 。 
步骤 4: 选中 图 表 中 的 数据 系列 ,在 数据 系列 格式 窗 格 中 设置 “纯色 填充 ”, 并 使 用 红 
色 。 再 选中 图 表 中 的 绘图 区 ,并 设置 为 “纯色 填充 ”. 选 用 黑色 ,效果 如 图 5-21(d) 所 示 。 
实验 确认 : 口 学 生 教师 




















5.5.3 用 漏斗 图 进行 业务 流程 的 差异 分 析 


漏斗 图 是 由 Light 与 Pillemer 于 1984 年 提出 的 , 它 是 元 分 析 的 有 用 工具 。 在 Excel 
中 绘制 漏斗 图 需要 借助 堆积 条 形 图 来 实现 .漏斗 图 适用 于 业务 流程 比较 规范 、 周 期 长 、 
环节 多 的 流程 分 析 , 通 过 漏斗 各 环节 业务 数据 的 比较 ,能 够 直观 地 发 现 和 说 明 问 题 
所 在 。 

实例 5-16 ”漏斗 图 。 

在 图 5-22 的 图 表 中 ,图 5-22(b) (客户 数 ) 是 默认 的 簇 状 条 形 图 ,用 绝对 值 表示 直 条 的 
大 小 ,其 排列 形式 像 反 着 的 阶梯 。 而 图 5-22(f) 经 过 复杂 的 操作 步骤 后 .让 直 条 像 漏 斗 一 
样 显 示 在 图 表 区 域 , 横 轴 用 绝对 值 表 示 ,而 纵 轴 用 数据 标签 模拟 每 个 直 条 的 百分比 表示 ， 
是 一 个 关于 刻度 值 为 500 的 直线 对 称 的 图 形 。 漏 斗 代表 的 意义 就 是 数量 逐渐 减少 的 过 
程 , 这 正 符合 了 图 表 表 达 的 业务 流程 ,直观 地 说 明了 数据 减少 的 环节 所 在 。 

步骤 1: 如 图 5-22(a) 中 的 数据 表格 ,其 中 的 “辅助 值 "? 和 “百分比 ”都 是 根据 B 列 的 值 
计算 而 得 来 的 。 在 C2 单元 格 中 输入 公式 “二 ($B$2 一 B2)/2”, 在 D2 单元 格 中 输入 公式 
“二 B2/ $ B$ 2”, 然 后 填充 C.D 列 数 据 区 域 的 空白 单元 格 。 





























A B c D 
1 客户 数 | 辅助 值 ”| 百分比 
2 | 市 场 调查 1000 ol 100%| 
3 800 100| 80%| 
600 200 60%| 
5 500 250 50%| 
风 300 350| 30%| 
7 | 签订 合同 | 100| 450| 10% 
8 





客户 歼 下 辅助 值 于 百分比 
芝 上 襄 同 mm 
在 户 让 判 。 Eee 
18 | 客户 洲 约 mm 
19 。 高 户 9RI。 gg 
2 0 | 潜在 客户 ms 
21 | 市 场 调 查 pm 
0 20 40 G0 800 1000 1200 
24 (c) 


辅助 值 客户 数 。 辅助 值 百分比 
29 0 20 400 50 800 1000 
30 | 市井 柱 poo 100X 











客户 数 
0 am wo go0 ao lo 
市 场 讽 查 
潜在 客户 








(b) 


和 辅助 值 ”客户 数 。e 辅 助 值 es 百分比 
0 20 40 5600 800 1000 


32 | 潜在 客户 OO 客户 跟踪 [|] | 60% 
客户 眼 踪 一 | 6ox 

33 客户 浸 约 ee 

34 | 客户 池 约 cmt | so% 二 [= 
35 | 客户 谈判 a | 30% Sy | 1 
36 | 签订 合同 | 10% 签订 合同 mn | 10% 
37 

(e) (DD 
图 5-22 漏斗 图 


步骤 2: 根据 数据 源 插入 堆积 条 形 图 ,图 表 如 图 5-22(c) 所 示 。 
步骤 3: 修改 Y 轴 坐 标 轴 为 “逆序 类 别 ”, 并 设置 水 平 轴 的 最 大 刻度 为 1100. 0。 
步骤 4: 打开 “选择 数据 源 ”" 对 话 框 ,选中 “图 例 项 "下方 列 表 中 的 “辅助 值 ”, 再 单 击 * 上 


移 " 按 钮 ,重新 排列 图 表 中 系列 的 位 置 。 


步骤 5: 继续 单 击 对 话 框 中 的 “添加 ”按钮 ,在 弹出 的 “编辑 数据 系列 ”对话 框 中 添加 列 
表 中 已 有 的 “辅助 值 ?系列 。 当 返回 到 “选择 数据 源 ” 对 话 框 中 时 ,重新 调整 新 添加 的 “辅助 
值 ” 系 列 的 位 置 , 即 将 它 上 移 至 “客户 数 ” 与 “百分比 ”之 间 。 

步骤 6: 经 过 前 几 步 的 调整 后 图 表 样 式 变 为 图 5-22(d) 所 示 的 结果 。 选 中 图 标 中 的 
“百分比 ”系列 值 ,由 于 其 代表 的 是 百分数 ,所 以 在 图 表 中 不 容易 识别 出 来 ,将 百分比 的 标 
签 显 示 在 “ 轴 内 侧 ”, 这 样 操作 其 实 就 是 模拟 Y 轴 次 要 坐标 。 

步骤 7: 将 两 个 “辅助 值 " 和 “百分比 "系列 所 代表 的 直 条 的 填充 效果 设置 为 “无 填 
充 ”, 这 样 漏斗 就 基本 成 形 , 如 图 5-22(e) 所 示 。 然 后 取消 图 例 的 显示 ,并 将 蓝 色 的 直 
条 颜色 改 为 蓝 -灰色 样式 ,最 后 对 图 表 中 的 文字 内 容 设置 字体 格式 , 便 得 到 图 5-22(f) 


大 由 昌林 钢化 


的 效果 。 





实验 确认 : 口 学 生 教师 

















【延伸 阅读 】 
志趣 相投 : 科学 与 人 文 已 经 走向 融合 


伽利略 的 望远镜 一 一 两 个 背 对 着 的 透镜 ,标志 着 人 类 文化 历史 的 转折 点 (图 5-23)。 
他 通过 望远镜 看 到 的 东西 和 天 主教 教义 相 违背 。 由 于 这 个 原因 ,宗教 裁判 所 将 其 终身 软 
禁 。 然 而 ,教会 无 法 囚禁 他 的 思想 。 在 伽利略 之 后 ,教会 对 西方 思想 的 漫长 统治 开始 衰 
退 ,这 与 他 不 无 关系 。 





图 5-23 ”伽利略 望远镜 了 


在 此 基础 上 ,两 个 伟大 的 知识 体系 开始 生根 发 芽 。 一 个 是 科学 ,其 目标 是 利用 实证 观 
察 揭示 宇宙 的 奥秘 ; 另 一 个 是 人 文 ,通过 细致 而 批判 性 的 分 析 来 研究 人 类 本 性 。 这 对 挛 生 
兄弟 给 西方 文明 带 来 了 丰厚 的 礼物 ,包括 自由 和 民主 .工程 和 技术 。 

然而 ,这 对 强大 的 “兄弟 ”长 期 以 来 彼此 疏远 。 其 至 在 今天 ,学 生 们 仍然 需要 选择 要 么 
集中 关注 科学 、 要 么 集中 关注 人 文 , 很 少 有 人 兼 修 二 者 或 者 同时 拥有 科学 学 位 和 人 文学 
位 。 研 究 人 员 也 必须 选择 其 中 一 个 阵营 。 两 者 之 间 的 界限 长 期 以 来 植 根 于 我 们 的 学 校 、 
大 学 和 知识 生态 系统 中 。 我 们 研究 数学 ,研究 莎士比亚 , 却 很 少 二 者 兼 修 。 

至 少 ,曾经 是 这 样 的 。 在 斯 坦 福 大 学 ,一 位 叫做 弗 朗 哥 。 英 雷 带 的 意大利 学 者 已 经 开 
始 使 用 数字 化 图 书 来 研究 莎士比亚 作品 中 的 人 物 关系 网 络 了 ,他 将 计算 机 科学 和 统计 物 
理学 的 方法 和 手段 应 用 到 了 一 个 全 新 的 领域 。 内 布 拉 斯 加 大 学 的 文学 教授 马 修 。 乔 克 尔 
斯 研究 了 19 世纪 的 小 说 间 的 微妙 关系 ,他 利用 的 正 是 这 些小 说 中 的 代词 的 统计 。 在 美国 
国家 人 文 基金 会 ,布雷 特 。 博 布 利 领导 着 一 个 叫做 “ 挖 气 数 据 挑战 ”的 创新 计划 ,帮助 美国 
的 人 文学 家 认真 地 考虑 这 些 新 数据 能 够 为 他 们 提供 什么 信息 。 他 们 走 到 了 数学 之 前 没有 


四” 伯 利 略 是 第 一 个 认识 到 望远镜 将 可 能 用 于 天 文 研究 的 人 。 虽 然 伽 利 略 没有 发 明 望 远 镜 ,但 他 改进 了 前 人 的 设 
计 方 案 , 并 逐步 增强 其 放大 功能 。 图 中 的 情景 发 生 于 1609 年 8 月 ,伽利略 正在 向 当时 的 威尼斯 统治 者 演示 他 的 望远镜 。 
伽利略 制作 了 一 架 口径 4.2 厘米 .长 约 1. 2 米 的 望远镜 。 他 使 用 平 凸透镜 作为 物镜 , 凹 透镜 作为 目镜 ,这 种 光学 系统 称 为 
伽利略 式 望 远 镜 。 伽 利 略 用 这 架 望 远 镜 指向 天 空 ,得 到 了 一 系列 的 重要 发 现 , 天 文学 从 此 进入 了 望远镜 时 代 。 
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到 达 的 领域 。 

在 达 特 茅 斯 ,一 位 名 叫 丹尼尔 。 洛 克 摩 尔 的 数学 家 一 直 在 使 用 数字 化 图 书 研 究 作家 写 
作风 格 之 间 的 相互 影响 。 和 莫 雷 带 相 比 , 他 使 用 了 更 多 的 数学 知识 ,进行 了 更 少 的 阅读 。 不 
过 ,二 人 志趣 相投 。 在 德 克 萨 斯 大 学 奥斯汀 分 校 , 心 理学 家 麻 姆 斯 。 彭 尼 贝 克 在 研究 文本 中 
的 代词 分 布 是 如 何 反映 作者 的 情感 的 。 彭 尼 贝 克 和 乔 克 尔 斯 受到 完全 不 同 的 知识 体系 的 影 
响 , 却 也 志趣 相投 。 另 外 ,美国 白宫 科技 政策 办 公 室 的 汤姆 。 卡 利 尔 在 奥巴马 总 统 的 授权 下 
发 起 了 一 个 大 数据 计划 。 尽 管 卡 利 尔 和 博 布 利 资助 的 人 不 同 , 但 他 们 也 是 志趣 相投 者 。 

历史 记录 不 断 变 化 的 性 质 持 续 地 扰乱 着 科学 和 人 文 的 边界 ,并 由 此 衍生 出 了 很 多 合成 
的 名 称 : 试图 跨 出 人 文科 学 边界 的 历史 学 家 倾向 于 称 自己 为 “数字 人 文学 家 ”, 语 言 学 系 开 
始 有 了 “语料库 语言 学 家 ”, 心 理学 家 和 社会 学 家 有 时 候 更 喜欢 别人 称 自己 为 “计算 社会 科学 
家 ”。 在 硅谷 不 断 兴起 的 创业 公司 中 ,这 些 慢 慢 兴盛 的 概念 渐渐 发 展 成 了 商业 业务 。 

慢 慢 地 ,科学 和 人 文 之 间 的 某 些 思想 开始 融合 。2013 年 春天 ,在 马里 兰 的 一 个 学 术 
会 议 上 ,美国 国立 卫生 研究 院 、 美 国 国家 人 文 基金 会 和 美国 国家 医学 图 书馆 召集 了 来 自 很 
多 领域 的 研究 人 员 ,包括 艺术 史 、 非 洲 语言 计算 机 科学 、 微 生物 学 .修辞 学 .诗歌 学 和 动物 
学 等 。 医 药 巨头 葛 兰 素 史 克 的 前 高 级 副 总 裁 戴 维 。 西 尔 斯 做 了 特 邀 报告 。 这 是 美国 国立 
卫生 研究 院 和 美国 国家 人 文 基金 会 第 一 次 共同 资助 学 术 会 议 。 会 议 主题 “数据 、 生 物 医 学 
和 数字 人 文学 ”流露 出 了 这 样 一 种 乐观 情绪 : 历史 学 家 、 哲 学 家 、 艺 术 家 、 医 生 和 生物 学 家 
等 一 起 来 思考 大 数据 ,他 们 并 肩 奋斗 要 比 各 自 为 战 更 能 推动 各 个 学 科 的 发 展 。 会 议 名 称 
“共享 视野 ”非常 贴切 。 未 来 最 令 人 兴奋 之 处 正 是 跨越 领域 合作 。 没 有 人 确切 地 知道 该 怎 
么 称呼 它 , 也 没有 人 确切 地 知道 它 将 走向 何方 。 不 过 ,有 一 件 事情 是 确定 的 : 科学 和 人 文 
再 次 志趣 相投 地 走 到 了 一 起 。 一 如 伽利略 在 17 世纪 深刻 地 影响 了 我 们 认识 世界 的 方式 
那样 ,科学 和 人 文 这 两 个 背 靠 着 的 透镜 正在 21 世纪 做 出 同样 的 壮举 。 

资料 来 源 : [ 美 ] 埃 雷 北 。 艾 登 ,[ 法 ] 让 - 巴 蒂 斯 特 - 米 软 尔 著 . 王 彤 彤 ,等 译 . 可 视 化 未 来 一 一 数据 透 
视 下 的 人 文大 趋势 .杭州 : 浙江 人 民 出 版 社 ,2015 


【延伸 阅读 】 
大 数据 如 何 激发 创造 力 
1. 实验 目的 


(1) 理解 和 熟悉 直方 图 、 折 线 图 、 圆 饼 图 、 散 点 图 等 不 同 的 数据 图 表 的 数据 分 析 作 用 ; 

(2) 通过 对 课文 中 实例 的 实验 操作 ,掌握 Excel 数据 分 析 和 数据 可 视 化 的 方法 和 
技巧 ; 

(3) 体验 和 掌握 大 数据 可 视 化 分 析 的 应 用 操作 。 


2. 工具 /准备 工作 
在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 安 装 有 Microsoft Excel(2013 版 ) 应 用 软件 的 计算 机 。 


攻 












3. 实验 内 容 与 步骤 


请 仔细 阅读 本 章 的 课文 内 容 , 对 其 中 的 各 个 实例 实施 具体 操作 实现 ,从 中 体验 Excel 
数据 统计 分 析 与 可 视 化 方法 。 

注意 : 完成 每 个 实例 操作 后 ,在 对 应 的 “实验 确认 ” 栏 中 打 色 (~ ), 并 请 实验 指导 老师 
指导 并 确认 。 

请 问 : 你 是 否 完成 了 上 述 各 个 实例 的 实验 操作 ? 如 果 不 能 顺利 完成 ,请 分 析 可 能 的 
原因 是 什么 。 

答 : 

















4. 实验 总 结 














5. 实验 评价 (教师 ) 
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【导读 案例 】 
拿 破 仓 东 征 莫 斯 科 及 撤退 


Charles Joseph Minard(1781 一 1870) ,法 国 工程 师 , 他 一 生 的 大 部 分 时 间 都 贡献 给 了 
水 坝 、 运 河和 桥梁 的 工程 建造 和 教育 事业 。 直 到 1851 年 退休 , 才 转 入 了 他 钟爱 的 个 人 事 
业 一 一 数据 信息 图 形 的 绘制 , 那 时 他 已 70 高 龄 。 在 他 生命 的 最 后 20 年 ,Minard 创造 了 
可 视 化 历史 的 一 个 传奇 。 今 天 ,他 被 誉 为 可 视 化 黄金 时 代 的 大 师 。 

Minard 的 最 大 成 就 是 这 幅 出 版 于 1869 年 的 流 地 图 (Flow Map) 作 品 一 一 拿破仑 
1812 远征 图 (图 6-1)。 这 幅 图 被 后 世 学 者 称 为 “有 史 以 来 最 好 的 统计 图 表 ”。 


Ge Herve wpe 

















图 6-1 Minard 用 地 图 描述 了 拿破仑 东 征 莫斯科 及 撤退 的 情况 


图 6-1 描述 了 拿 政 仑 的 军队 从 波兰 和 俄罗斯 交界 处 东 征 莫斯科 以 及 之 后 的 撤退 。 其 
经 典 之 处 在 于 在 一 张 简单 的 二 维 图 上 表现 了 丰富 的 信息 ,包括 法 军 部 队 的 规模 、 地 理 坐 
标 、 法 军 前 进 和 撤退 的 方向 .法 军 抵达 革 处 的 时 间 以 及 撤退 路 上 的 温度 。 这 张 图 对 于 
1812 年 的 战争 提供 了 全 面 的 .强烈 的 视觉 表现 ,例如 撤退 路 上 在 别 列 津 河 的 重大 损失 、 严 
寒 对 法 军 损失 的 影响 等 ,这 种 视觉 的 表现 力 即使 是 历史 学 家 的 文字 也 难以 比拟 。 

大 多 数 看 到 这 幅 地 图 的 人 都 不 需要 询问 就 可 以 看 出 地 图 中 线条 的 粗细 代表 军队 中 的 
士兵 数 ,灰色 表示 进军 而 黑色 表示 撤退 ,我 们 可 以 清楚 地 看 到 ,44 万 士兵 跟随 拿破仑 出 
征 , 但 是 最 终 只 有 一 万 人 幸存 下 来 。 军 队 横渡 Berezina 河 时 河面 的 冰 层 还 不 够 结实 , 导 
致 士兵 数量 急剧 减少 。 我 们 可 以 从 这 幅 地 图 中 获得 关于 这 次 东 征 的 大 量 信息 ,即使 不 再 


大 歧 电 可 锣 啤 


看 这 幅 地 图 , 它 的 重要 特点 也 将 在 很 长 一 段 时 间 内 仍 停留 在 我 们 的 脑海 里 。 伟 大 的 历史 
事件 俊生 了 伟大 的 作品 。 

油画 (图 6-2) 表 现 的 是 拿破仑 皇帝 统帅 的 法 国 军队 在 1812 一 1813 年 间 对 俄罗斯 的 入 
侵 。 这 场 战 争 以 法 国 军队 的 惨败 而 告终 ,侵入 俄国 的 42 万 人 最 终生 还 者 仅仅 数 万 。 造 成 
法 军 损失 惨重 的 原因 除了 俄罗斯 人 的 顽强 抵抗 ,还 有 恶劣 的 自然 条 件 , 特 别 是 1812 年 冬 
季 的 严寒 。 

当然 ,大 师 的 成 就 绝 非 灵光 一 现 的 结果 。 作 为 可 视 化 领域 的 先驱 者 之 一 ,Minard 发 
展 了 多 种 图 形 形 式 来 表现 数据 信息 。 下 面 , 我 们 来 回顾 一 下 工程 师 Minard 作为 制图 者 
的 成 就 。 

在 工程 师 的 岁月 中 ,Minard 就 表现 出 了 对 于 数据 可 视 化 的 爱好 和 天 赋 。 在 1840 年 
关于 罗 纳 河上 桥梁 倒塌 的 事故 报告 中 ,Minard 就 绘制 了 一 幅 表现 桥梁 倒塌 前 后 的 位 置 图 
形 , 形 象 地 解释 了 桥梁 倒塌 的 原因 (图 6-3)。 


Pont de Bourg-St Andtol mr le Rhine. 














图 6-2 严寒 中 撤退 的 法 军 图 6-3 桥梁 倒塌 的 原因 


在 1844 年 ,Minard 绘制 了 一 幅 名 为 Tableau Graphique 的 图 形 ( 图 6-4) ,显示 了 运输 
货物 和 人 员 的 不 同 成 本 。 在 这 幅 图 中 ,他 创新 地 使 用 了 分 块 的 条 形 图 ,条 形 块 图 的 宽度 对 
应 路 程 、 高 度 对 应 旅客 或 货物 种 类 的 比例 。 这 幅 图 是 当代 马赛 克 图 的 先驱 。 

很 快 ,Minard 认识 到 基于 地 理 的 量化 信息 更 适合 表现 在 地 图 上 。 他 创造 了 流 地 图 这 
一 表达 方式 。 代 表 作 品 如 反映 美国 内 战 对 欧洲 棉花 贸易 的 影响 (图 6-5,1856 一 1865) 和 
法 国 的 酒 类 出 口 情况 (图 6-6,1864)。 

他 在 主题 地 图 上 的 另 一 个 创新 是 把 饼 图 添加 到 地 图 上 ,比如 这 幅 法 国 各 地 向 巴黎 输 
送 牲畜 产品 的 地 图 (图 6-7,1858)。 

Minard 利用 他 的 工程 师 的 成 就 和 绘制 可 视 化 图 形 的 能 力 影 响 了 1850 年 来 法 国 的 公 
用 事业 建设 的 计划 编制 。 如 在 1865 年 ,巴黎 计划 建造 一 座 中 心 邮局 ,Minard 采用 人 口 比 
例 图 形 给 出 了 自己 的 设计 方案 。 

Minard 共 绘 制 了 51 幅 各 种 形式 的 可 视 化 图 形 , 他 在 高 龄 表现 的 创造 力 , 实 在 是 一 个 
传奇 。 


鳃 加 语 长 扬 避 包 可 视 人 出动 起 
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图 6-4 第 一 幅 马 赛 克 图 





图 6-5 美国 内 战 对 欧洲 棉花 贸易 的 影响 
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图 6-6 法 国 酒 类 的 出 口 








图 6-7 向 巴黎 输送 牲畜 的 情况 (1858) 


阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 请 仔细 阅读 图 6-1, 分 析 地 图 所 表示 的 内 涵 , 并 结合 网 络 资料 搜索 阅读 ,进一步 了 解 
拿破仑 东 征 莫斯科 及 其 惨败 的 原因 。 请 谈 谈 你 对 这 场 战争 的 认识 ,对 这 幅 地 图 的 认识 。 

答 : 



























(2) 在 可 视 化 图 形 领域 ,高 龄 的 法 国 工程 师 Minard 却 有 了 丰富 的 建树 ,你 觉得 ,是 什 
么 造就 了 他 的 成 就 ? 
答 : 














(3) 请 通过 网 络 搜索 和 学 习 , 了 解 什么 是 “工程 素质 ”, 并 请 记录 如 下 : 
答 : 
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(4) 请 简单 记述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 : 
答 : 




















61 可 视 化 对 认 知 的 帮助 


可 视 化 已 不 仅仅 是 一 种 工具 , 它 更 是 一 种 媒介 ,探索 、 展 示 和 表达 数据 含义 的 一 种 方 
法 。 可 视 化 不 是 将 相互 独立 的 部 分 分 割 开 , 而 是 可 以 把 可 视 化 看 作 是 连续 的 、 从 统计 图 形 
延伸 到 数字 艺术 的 一 个 连续 谱 图 。 站 分 的 ,也 有 很 多 混合 的 ,不 能 
混为一谈 。 巾 于 统计 学 .设计 和 美学 的 综合 运用 , 才 产 生 了 许多 优秀 的 数据 可 视 化 作品 。 


6.1.1 科学 可 视 化 


科学 可 视 化 (Scientific Visualization) 是 科学 之 中 的 一 个 跨 学 科研 究 与 应 用 领域 , 主 
要 关注 的 是 三 维 现象 的 可 视 化 ,如 建筑 学 、 气 象 学 、 医 学 或 生物 学 方面 的 各 种 系统 。 重 点 
在 于 对 体面 以 及 光源 等 的 逼真 泻 染 ,甚至 还 包括 某 种 动态 (时 间 ) 成 分 。 科 学 可 视 化 侧重 
于 利用 计算 机 图 形 学 来 创建 视觉 图 像 ,从 而 帮助 人 们 理解 那些 采取 错综复杂 而 又 往往 规 
模 庞大 的 数字 呈现 形式 的 科学 概念 或 结 

对 于 科学 可 视 化 来 说 ,三 维 是 必要 的 ,因为 典型 问题 涉及 连续 的 变量 .体积 和 表面 积 
(内 /外 、 左 / 右 和 上 /下 )( 图 6-8)。 然 而 ,对 于 信息 可 视 化 来 说 ,典型 问题 包含 更 多 的 分 类 变 
量 和 股票 价格 、 医 疗 记 录 或 社会 关系 之 类 数据 中 的 模式 、 趋 势 、 聚 类 、 异 类 和 空白 的 发 现 。 





到 








图 6-8 500hPa 高 度 场 的 三 维 显示 


ph | 


大 上 财 电 加 钢 比 


人 的 眼睛 是 人 们 感知 世界 的 最 主要 途径 ,因此 ,数据 可 视 化 提供 了 一 种 感性 的 认 知 方 
式 , 是 提高 人 们 感知 能 力 的 重要 途径 。 可 视 化 可 以 扩大 人 们 的 感知 ,增加 人 们 对 海量 数据 
分 析 的 一 系列 的 想法 和 分 析 经 验 ,从 而 对 人 们 感知 和 学 习 提供 参考 或 者 帮助 。 

通常 为 了 交互 式 操纵 可 能 从 大 得 多 的 数据 集中 提取 出 大 量 条 目 (10? 一 10) ,信息 可 
视 化 提供 紧凑 的 图 形 表 示 和 用 户 界面 。 有 时 称 其 为 视觉 数据 挖掘 , 它 使 用 巨大 的 视觉 带 
宽 和 非凡 的 人 类 感知 系统 ,使 用 户 能 够 对 模式 、 条 目 分 组 或 单个 条 目 有 所 发 现 、 做 出 决定 
或 提出 解释 。 它 甚至 可 能 允许 用 户 回答 他 们 不 知道 他 们 具有 的 问题 。 

感知 心理 学 家 ,统计 学 家 和 平面 设计 师 提供 关于 呈现 静态 信息 的 宝贵 指南 ,但 动态 显 
示 的 机 会 远 远 超 出 用 户 界面 设计 人 员 当 前 的 智慧 。 人 类 具有 非凡 的 感知 能 力 ,它们 在 当 
前 的 大 多 数 界 面 设计 中 远 未 被 充分 利用 。 用 户 能 够 快速 地 浏览 .识别 和 回忆 图 像 , 能 够 察 
觉 大 小 、 颜 色 、 形 状 、 移 动 或 质地 的 微妙 变化 。 在 图 形 用 户 界面 中 呈现 的 核心 信息 大 部 分 
仍旧 是 文字 导向 的 (虽然 已 用 吸引 人 的 图 标 和 优雅 的 插图 增强 ) ,倘若 探索 更 视觉 化 的 方 
法 ,吸引 人 的 新 机 会 就 会 出 现 。 

有 些 用 户 抵制 视觉 方法 ,偏爱 强 有 力 的 文本 方法 ,诸如 多 菜单 和 多 分 面 元 数据 搜索 中 
的 数字 查询 预览 。 他 们 的 选择 可 能 是 恰当 的 ,因为 这 些 文本 工具 使 用 紧凑 的 呈现 ,这 种 呈 
现 有 丰富 的 ,有 意义 的 信息 且 令 人 欣慰 的 熟悉 。 成 功 的 信息 可 视 化 工具 必须 不 止 是 “ 栈 ”， 
它们 还 必须 为 实际 任务 提供 可 测量 的 好 处 。 它 们 必须 被 构建 来 满足 在 各 种 平台 上 工作 、 
使 得 包括 残疾 用 户 的 所 有 预期 用 户 均 能 访问 的 普遍 可 用 性 原则 。 


6.1.2 七 个 数据 类 型 


按 任务 分 类 的 数据 类 型 包括 7 个 基本 数据 类 型 和 7 个 基本 任务 。 基 本 数据 类 型 是 一 
维 . 二 维 、 三 维 或 多 维 的 ,接着 是 三 种 结构 化 更 强 的 数据 类 型 : 时 态 的 、 树 的 和 网 络 的 。 这 
种 简化 对 于 描述 已 被 开发 的 可 视 化 和 表示 用 户 所 遇 到 的 问题 类 别 的 特征 是 有 用 的 。 例 
如 ,对 于 时 态 数据 ,用 户 处 理事 件 和 间隔 :他们 关心 的 问题 是 之 前 、 之 后 或 之 中 。 对 于 树 结 
构 的 数据 ,用 户 处 理 内 部 节点 上 的 标签 和 叶 节 点 的 值 .他 们 的 问题 是 关于 路 径 . 层 次 和 子 
树 的 。 

(1) 1D 线性 数据 。 线 性 数据 类 型 是 一 维 的 ,它们 包括 程序 源 代码 、 文 本 文档 、 字 典 和 
按 字母 顺序 的 名 字 列 表 , 所 有 这 一 切 均 能 按 顺 序 方式 组 织 。 对 程序 源 代码 来 说 ,一 个 像 
素 / 字 符 的 大 量 压缩 产生 单个 显示 器 上 的 数 以 万 计 源 程序 代码 行 的 紧凑 显示 。 属 性 ,诸如 
最 近 修 改 日 期 或 作者 名 ,可 能 被 用 于 颜色 编码 。 界 面 设计 问题 包括 使 用 什么 颜色 、 大 小 和 
布局 以 及 给 用 户 提 供 什么 概览 .滚动 或 选择 方法 。 用 户 的 任务 可 能 是 查找 条 目的 数量 , 查 
看 有 某 些 属性 (例如 从 先前 版 本 以 来 被 改变 的 程序 行 ) 的 条 目 。 

(2) 2D 地 图 数据 。 平 面 数据 包括 地 理 图 .平面 布 团 图 和 报纸 版 面 。 集 合 中 的 每 个 条 
目 获 盖 整个 区 域 的 某 个 部 分 ,每 个 条 目 都 有 任务 域 属性 (诸如 名 字 、 所 有 者 和 值 ) 和 界面 域 
特征 (诸如 形状 、 大 小 、 颜 色 和 不 透明 度 , 见 图 6-9)。 

很 多 系统 采用 多 层 方法 来 处 理 地 图 数据 ,但 每 层 都 是 二 维 的 。 用 户 的 任务 包括 查找 
邻近 条 目 、 包 含 某 些 条 目的 区 域 和 两 个 条 目 之 间 的 路 径 , 以 及 执行 7 个 基本 任务 。 例 如 地 
理 信 息 系统 , 它 是 一 个 庞大 的 研究 和 商用 领域 (图 6-10)。 
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图 6-9 可 视 化 技术 呈现 的 2016 年 英国 公投 脱 欧 
《英国 脱 欧 公投 各 地 的 投票 率 ,颜色 越 深 的 投票 率 越 高 , 圈 所 在 是 英国 的 主要 城市 。 这 个 图 
说 明 : 小 地 方 的 投票 意愿 , 比 精英 所 在 的 大 城市 强烈 ) 





图 6-10 某 时 刻 QQ 同时 在 线 人 数 





(3) 3D 世界 数据 。 现 实 世界 的 对 象 , 诸 如 分 子 、 人 体 和 建筑 物 , 具 有 体积 和 与 其 他 条 
目的 复杂 关系 。 计 算 机 辅助 的 医学 影像 建筑 制图 、 机 械 设计 ,化 学 结构 建 模 和 科学 仿真 
被 构建 来 处 理 这 些 复 杂 的 三 维 关系 。 用 户 的 任务 通常 处 理 连续 变量 ,诸如 温度 或 密度 。 
结果 经 常 被 表示 为 体积 和 表面 积 ,用 户 关注 左 / 右 、 上 /下 和 内 /外 的 关系 。 在 三 维 应 用 程 
序 中 , 当 观 察 对 象 时 ,用 户 必须 处 理 察看 对 象 时 它们 的 位 置 和 方向 ,处 理 遮挡 与 导航 的 潜 
在 问题 (图 6-11)。 

使 用 增强 的 三 维 技术 的 解决 方案 ,诸如 概览 地标 、 远 距 传 物 、 多 视图 和 有 形 用 户 界 
面 ,正在 设法 进入 研究 原型 和 商业 系统 中 。 成 功 的 例子 包括 帮助 医生 计划 手术 的 声波 图 
医学 影像 和 使 购房 者 了 解 建成 的 房屋 看 上 去 将 是 什么 样子 的 建筑 的 走 查 或 飞越 。 三 维 的 
计算 机 图 形 和 计算 机 辅助 设计 工具 的 例子 很 多 .但 三 维 的 信息 可 视 化 工作 仍 是 有 争议 的 。 
一 些 虚拟 环境 研究 人 员 和 商业 图 表 制 作者 已 经 寻求 用 三 维 结构 呈现 信息 ,但 这 些 设计 似 
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矿 数 据 可 物化 


乎 需要 更 多 的 导航 步骤 上 且 使 结果 更 难以 解释 。 
除了 1D 线性 数据 .2D 地 图 数据 和 3D 世界 数据 之 外 ,还 有 多 维 数据 、 时 态 数 据 、 树 数 
据 、 网 络 数 据 等 数据 类 型 。 





6-11 3D 世界 的 信息 可 视 化 


6.1.3 七 个 基本 任务 


分 析 数 据 可 视 化 的 第 二 个 框架 包含 用 户 通常 执行 的 7 个 基本 任务 。 

(1) 概览 任务 。 用 户 能 够 获得 整个 集合 的 概览 。 概 览 策略 包括 每 个 数据 类 型 的 缩小 
视图 ,这 种 视图 允许 用 户 查看 整个 集合 ,加 上 邻接 的 细节 视图 。 概 览 可 能 包含 可 移动 的 视 
图 域 框 ,用 户 用 它 来 控制 细节 视图 的 内 容 , 人 允许 缩放 因子 在 3 一 30 之 间 。 重 复 有 中 间 视 图 
的 这 种 策略 使 用 户 能 够 达到 更 大 的 缩放 因子 。 另 一 种 流行 的 方法 是 鱼 眼 策 略 , 即 变形 放 
大 一 个 或 更 多 的 显示 区 域 , 但 几何 缩放 因子 必须 被 限制 在 5 左右 ,或 针对 可 使 用 的 上 下 文 
使 用 不 同 的 表示 等 级 。 因 为 大 多 数 查询 语言 工具 都 使 集合 概览 的 获取 很 困难 ,所 以 适当 
概览 策略 的 规定 是 评价 此 类 界面 的 有 用 标准 。 

(2) 缩放 任务 。 用 户 能 够 放大 感 兴趣 的 条 目 。 用 户 通 常 对 集合 中 的 某 个 部 分 感 兴 
趣 , 他 们 需要 工具 使 他 们 能 够 控制 缩放 焦点 和 缩放 因子 。 平 滑 的 缩放 有 助 于 用 户 保持 他 
们 的 位 置 感 和 上 下 文 。 用 户 能 够 通过 移动 缩放 条 控件 或 通过 调整 视图 域 框 的 大 小 一 次 在 
一 个 维度 上 缩放 。 令 人 满意 的 放大 方式 ,是 先 指向 一 个 位 置 ,然后 发 布 一 个 缩放 命令 , 通 
常 通过 鼠标 来 实现 。 缩 放 在 针对 小 显示 器 的 应 用 程序 中 特别 重要 。 

(3) 过 滤 任 务 。 用 户 能 够 过 滤 掉 不 感 兴趣 的 条 目 。 应 用 于 集合 中 条 目的 动态 查询 构 
成 信息 可 视 化 的 关键 思想 之 一 。 当 用 户 控制 显示 的 内 容 时 ,他 们 能 够 通过 去 除 不 想 要 的 
条 目 而 快速 集中 他 们 的 兴趣 。 通 过 滑 块 或 按钮 能 快速 执行 显示 更 新 ,允许 用 户 跨 显示 器 
动态 突出 显示 感 兴趣 的 条 目 。 

(4) 按 需 细 化 任务 。 用 户 能 够 选择 一 个 条 目 或 一 个 组 来 获得 细节 。 一 旦 集合 被 修剪 到 
只 有 几 十 个 条 目 ,浏览 该 组 或 单个 条 目的 细节 就 应 该 是 容易 的 。 通 常 的 方法 是 仅 在 条 目 上 
单 击 , 然 后 在 单独 或 弹出 的 窗口 中 查看 细节 。 按 需 细 化 窗口 可 能 包含 更 多 信息 的 链接 。 

(5) 关联 任务 。 用 户 能 够 关联 集合 内 的 条 目 或 组 。 与 文本 显示 相 比 ,视觉 显示 的 吸 
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第 (6 人 寓 茹 电 四 导 可 钢化 设计 


引力 在 于 它们 利用 人 类 处 理 视觉 信息 的 感知 能 力 。 在 视觉 显示 之 内 ,有 机 会 按 接近 性 、 包 
容 性 、 连 线 或 颜色 编码 来 显示 关系 。 突 出 显示 技术 能 够 用 于 引起 对 有 数 千 条 目的 域 中 某 
些 条 目的 注意 。 指 向 视觉 显示 能 够 允许 快速 选择 , 且 反 馈 是 明显 的 。 当 用 户 在 视觉 显示 
上 执行 动作 时 , 眼 . 手 、 脑 似乎 流畅 .快速 地 工作 。 然 而 ,设计 用 于 确定 哪个 关系 是 显而易见 
的 这 样 的 用 户 界面 动作 仍 是 一 个 挑战 。 用 户 也 许 还 想 把 多 种 可 视 化 技术 结合 在 一 起 ,这 些 
技术 是 紧 耦 合 的 ,以 至 于 一 个 视图 中 的 动作 会 触发 其 他 所 有 耦合 视图 中 的 立即 改变 。 正 在 
开发 工具 以 允许 用 户 确 定 他 们 需要 什么 可 视 化 技术 和 如 何 控制 可 视 化 技术 之 间 的 交互 。 

(6) 历史 任务 。 用 户 能 够 保存 动作 历史 以 支持 撤销 .回放 和 逐步 细 化 。 单 个 动作 就 
得 到 想 要 的 结果 的 情况 是 少 有 的 ,信息 探索 本 来 就 是 一 个 有 很 多 步骤 的 过 程 , 所 以 保存 动 
作 的 历史 并 允许 用 户 追 溯 其 步骤 是 重要 的 。 然 而 ,大 多 数 产 品 并 没有 适当 处 理 这 种 需求 。 
在 信息 检索 系统 建 模 方面 会 得 到 进一步 的 发 展 ,通过 保留 搜索 序列 ,以 便 这 些 搜索 能 够 被 
组 合 或 细 化 。 

(7) 提取 任务 。 用 户 能 够 允许 子 集 和 查询 参数 的 提取 。 一 旦 用 户 获得 了 他 们 想 要 的 
条 目 或 条 目 集 合 , 对 他 们 有 用 的 是 ,他 们 能 够 提取 该 集合 并 保存 它 、 通 过 电子 邮件 发 送 它 
或 把 它 插 入 统计 或 呈现 的 软件 包 中 。 他 们 可 能 还 想 发 布 那些 数据 ,以 便 其 他 人 用 可 视 化 
工具 的 简化 版 本 来 查看 。 


62 新 的 数据 研究 方法 


我 们 今天 使 用 的 许多 传统 图 表 , 如 折线 图 .条 形 图 和 饼 图 等 都 是 苏格兰 工程 师 、 经 济 
学 家 威廉 姆 。 普 莱 菲 尔 发 明 的 。 他 在 1786 年 出 版 的 4 商业 和 政治 图 解 》 一 书 中 ,用 44 个 
图 表 记录 了 1700 一 1782 年 期 间 英国 贸易 和 债务 ,展示 出 这 段 时 期 的 商业 事件 。 这 些 手工 
绘制 在 纸 上 的 图 表 是 对 当时 通行 表格 的 重大 改进 。 

直到 20 世纪 70 年 代 , 人 们 还 在 通过 手绘 图 看 数据 。 约 翰 。 图 基 在 1977 年 出 版 了 其 
开创 性 的 著作 《探索 性 数据 分 析 》, 他 在 书 中 描述 了 如 何 用 钢笔 而 不 是 铅笔 加 深 线 条 的 颜 
色 。 现 在 看 来 这 样 的 技巧 已 经 很 古老 了 。 

技术 的 进步 也 让 数据 的 量 和 可 用 性 得 到 了 极 大 的 改善 ,这 反 过 来 给 了 人 们 以 新 的 可 
视 化 素材 ,以 及 新 的 工作 和 研究 领域 。 没 有 数据 ,就 没有 可 视 化 。 世 界 银 行 以 易于 下 载 的 方 
式 提供 了 有 关 美 国 的 全 国 性 数据 ,可 帮助 用 户 了 解 整个 世界 的 发 展 状况 。 利 用 这 些 数据 研 
究 历 年 来 各 国人 口 的 平均 寿命 ,图 6-12( 交 互 图 ) 显 示 出 大 多 数 地 区 的 平均 寿命 总 体 在 增加 
(2009 年 全 球 平均 预期 寿命 为 67 岁 ) ,其 中 的 大 回落 表示 某 些 地 区 发 生 了 战争 和 冲突 。 

平均 寿命 图 是 调整 过 的 多 重 时 序 图 ,是 数据 让 它 变 得 有 意义 了 。 但 在 互联 网 时 代 之 
前 ,这 些 数据 即使 存在 也 很 难 收集 。 斯 蒂 芬 。 冯 “ 沃 利用 一 份 现成 的 .逗号 分 隔 的 文档 算 
出 了 全 美国 48 个 州 中 任何 一 个 地 点 到 最 近 麦 当 劳 的 距离 ,并 在 地 图 上 标注 了 出 来 。 如 
图 6-13 所 示 ,一 个 区 域 的 颜色 越 亮 ,就 意味 着 越 能 尽快 吃 到 巨 无 霸 。 

从 太空 这 一 个 更 广阔 的 视角 来 看 NASA( 美 国 国家 航空 航天 局 ) 使 用 卫星 数据 监视 
地 球 上 的 活动 。 例 如 ,图 6-14 是 显示 水 循环 构成 动画 中 的 一 幅 快 照 , 包 括 闵 发 ,水 蒸气 上 升 
和 降水 的 过 程 。 根 据 这 些 数 据 建 立 的 大 气 模型 可 以 让 人 们 看 到 地 球 历史 中 的 重大 变化 。 
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1960 1970 1980 1990 2000 


图 6-12 世界 各 地 平均 寿命 


(http:///datafl. ws/24w) 





图 6-13 ”到 麦当劳 的 距离 
《2010 年 ) 





图 6-14 水 循环 平面 图 
(NASA 戈 达 德 航天 飞行 中 心 绘制 ,http://svs. nasa. bov/goto? 3811) 
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图 6-15 所 示 的 “永恒 的 海洋 ?同样 由 NASA 绘制 , 它 使 用 了 类 似 的 数据 和 模型 来 评 
估 洋 流 。 这 是 多 么 的 神奇 ! 大 量 的 数据 使 这 一 切 成 为 可 能 。 当 然 ,不 断 增长 的 新 数据 类 
型 需要 比 纸 笔 更 强大 的 新 工具 来 帮助 探索 研究 。 





图 6-15 永恒 的 海洋 
(NASA 戈 达 德 航天 飞行 中 心 绘制 ,http://datafl. ws/2bc) 


计算 机 的 引入 改变 了 人 们 分 析 和 研究 数据 的 方式 。 借 助 计算 机 ,可 以 在 数秒 内 制作 
出 许多 图 表 , 从 多 个 角度 查看 数据 以 及 筛选 出 更 复杂 的 数据 集 , 而 不 用 再 像 以 前 那样 只 能 
用 手绘 的 图 表 。 现 在 人 们 也 拥有 了 更 多 的 数据 研究 工具 。 例 如 ,微软 的 Excel 仍 是 许多 
人 首选 的 办 公 软 件 , 它 可 以 完成 许多 工作 ,但 人 们 想 要 使 用 的 方法 以 及 想 要 研究 的 深度 都 
正在 发 生 改 变 。 


63 信息 图 形 和 展示 


研究 数据 时 ,你 会 形成 自己 的 见解 ,因此 没有 必要 向 自己 解释 这 些 数 据 的 有 趣 之 处 。 
但 当 观 众 不 仅仅 是 自己 时 ,就 必须 提供 数据 的 背景 通常 这 并 不 是 指 为 图 表 配 上 详 
尽 的 长 篇 大 论 的 文章 或 论文 ， 四 六 必用 上 标签 、 标题 和 文字 ,让 读者 为 即将 见 到 的 东西 
做 好 准备 。 可 视 化 本 点 频 色 ,代表 了 数据 ,而 文字 则 可 以 让 图 形 更 易 读 
以 。 注 反 、 关 所 :上 全 信 让 各 各 理 的 轴 局 相 可 以 光 原 始 闹 计 孝 记 者 加 一 避 

通俗 地 说 ,可 视 化 设计 的 目的 是 “让 数据 说 话 ”。 这 意味 着 将 数据 或 信息 可 视 化 。 作 
为 一 种 媒介 ,可 视 化 已 经 发 展 成 为 一 种 很 好 的 故事 讲述 方式 。 新 闻 机 构 正 学 着 在 其 领域 
内 使 用 可 视 化 这 种 媒介 。 例 如 ,2010 年 4 月 .墨西哥 湾 的 “深水 地 平 线 ?石油 钻井 平台 爆 
炸 :导致 近 4 亿 升 石 油 泄漏 到 大 海中 (图 6-16),《 纽 约 时报 》 持 续 3 个 月 对 此 进行 了 生动 
且 全 面 的 报道 。 它 为 原油 泄漏 如 何 结束 .造成 了 什么 影响 以 及 为 什么 会 发 生 泄漏 提供 了 
背景 介绍 。 现 在 ,距离 这 一 事故 的 发 生 已 经 有 很 长 时 间 了 ,回首 这 一 系列 的 互动 报道 ,其 
中 的 图 表 仍 能 传递 丰富 的 信息 ,而 且 在 未 来 数 年 中 仍 是 如 此 。 

马 修 。 迈 特 在 “图 解 博士 是 什么 ee 大 到 了 很 好 的 效果 (图 6-17) 。 



























制作 这 一 图 表 是 为 了 对 研究 生 进行 指导 ,当然 它 也 适用 于 所 有 正在 学 习 . 并 且 想 要 在 自己 
领域 中 获得 进步 的 人 。 

这 些 图 并 不 华丽 , 它 显示 出 不 需要 过 多 花哨 的 功能 也 可 以 吸引 人 们 的 目光 。 这 同样 
也 适用 于 数据 。 有 价值 的 数据 让 图 表 值 得 一 看 。 它 传递 了 数据 的 故事 。 


137 


矿 数 所 可 摘 化 








(b) 
图 6-16 ”墨西哥 湾 * 深 水 地 平 线 " 石 油 钻井 平台 爆炸 
用 圈 来 代表 人 类 所 有 的 知识 : 读 完 小 学 ， 你 有 了 一 些 基础 知识 : ” 读 完 中 学 ， 你 的 知识 多 了 一 点 : 
2 一 个 一 个 
/ \ / \ 


(c) 
阅读 大 量 文献 ， 接 触 本 


专业 知识; 


(a) 
读 完 本 科 ， 你 有 了 专业 方向 : 





SS TS i Ce 2 
(d) (©) (D 
选择 某 一 专题 ， 作 为 主攻 方向 : ”在 主攻 专题 上 潜心 研究 好 几 年 : 终于 取得 了 突破 性 成 就 : 


> 





(g) (h) 


6-17 图 解 博士 是 什么 
( 马 修 。 迈 特 ,http://datafl. ws/25c) 


鳃 (6 党 





你 把 人 类 的 知识 推进 了 一 现在 ， 你 看 待 世界 的 方式 但 是 ， 不 要 忘 了 
步 ， 你 就 成 为 博士 : 已 不 同 : 学 无 止境 





(k) (D 
图 6-17 ( 续 ) 


64 走 进 数据 艺术 的 世界 


数据 艺术 申 那些 分 析 和 信息 图 形 常 有 的 数字 特征 组 成 , 它 更 多 的 是 为 了 让 人 们 去 体 
验 那些 让 人 感觉 冰冷 而 陌生 的 数据 。2012 年 ,在 距离 伦敦 奥运 会 开幕 还 有 几 个 月 的 时 
候 ,艺术 家 格 约 拉 和 称 罕 默 德 。 阿 克 坦 在 “形态 ”(Forms) 图 中 将 原本 就 很 美的 竞技 运动 
演绎 成 衍生 动画 ,如 图 6-18 所 示 。 小 视频 中 播放 一 位 运动 员 ,如 体操 运动 员 或 跳水 运动 
员 的 腾空 和 翻转 动作 ,大 视频 里 同时 生成 由 颗粒 、 枝 条 和 长 杆 组 成 的 图 形 ,相应 地 移动 。 
移动 伴随 有 声音 ,让 计算 机 生成 的 图 形 看 起 来 更 加 真实 。 





6-18 “形态 ”图 
(穆罕默德 。 阿 克 坦 和 格 约 拉 ,http://vimeo. com/37954818) 


大 歧 电 可 锣 化 





图 6-18 〈 续 ) 


虽然 这 些 作品 是 用 于 艺术 展 或 装饰 墙壁 的 ,但 很 容易 看 出 它们 对 一 些 人 的 用 处 。 例 
如 ,运动 员 和 教练 可 能 对 完美 的 动作 感 兴趣 ,而 视觉 跟踪 可 以 帮助 他 们 更 容易 看 到 运动 模 
式 。“ 形 态 ” 可 能 不 如 动作 捕 提 软件 回放 动作 那样 直观 ,但 机 制 是 类 似 的 。 

这 让 人 们 再 次 开始 思考 “数据 艺术 是 什么 ”, 或 者 是 更 重要 的 问题 一 一 可 视 化 是 什么 。 
可 视 化 是 一 种 应 用 广泛 的 媒介 。 在 某 一 范围 内 有 不 同类 型 的 可 视 化 ,但 它们 并 没有 明确 
清晰 的 界限 (也 没有 必要 )。 可 视 化 作品 既 可 以 是 艺术 的 ,同时 又 是 真实 的 。 

在 费 尔 兰 达 ， 维 埃 加 斯 和 马丁 瓦 腾 伯 格 的 另 一 幅 作 品 *“ 风 图 ”(Wizd Mazp ) 中 ,他 们 
将 可 视 化 用 作 工 具 和 表达 方式 ,绘制 了 全 美 各 地 风 的 流动 模式 (图 6-19)。 数 据 来 自 国家 
数字 预测 数据 库 的 预报 ,每 小 时 更 新 一 次 。 可 以 通过 缩放 和 平移 数据 库 来 进行 研究 ,还 可 
以 把 鼠标 停 在 某 处 了 解 该 地 的 风速 和 方向 。 地 图 上 风 的 流动 越 集中 、 越 快 ,预报 的 风速 就 
越 大 。 





图 6-19 风 图 
(2016-2-23,http://hint. fm/wind/) 


对 于 研究 风 的 模式 的 气象 学 家 或 是 教授 气象 原理 的 老师 ,这 个 图 很 有 用 ,但 维 埃 加 斯 
和 瓦 腾 伯 格 将 其 看 作 艺 术 品 。 他 们 的 目的 是 赋予 环境 生命 感 ,使 它 看 上 去 很 美 。 你 很 容 
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易 沉浸 在 这 些 数据 中 ,这 些 数 据 既是 个 性 化 的 ,又 很 容易 与 读者 建立 起 关联 。 用 传统 的 图 
表 很 难 做 到 这 些 。 也 就 是 说 ,高 质量 的 数据 艺术 和 其 他 可 视 化 一 样 , 仍 是 由 数据 引导 设计 
的 。 随 着 移动 技术 的 进步 ,数字 和 物质 间 的 差距 变 得 更 小 ,可 视 化 将 在 连接 这 两 个 世界 的 
过 程 中 发 挥 出 更 大 的 作用 。 

可 见 ,可视化 的 定义 在 不 同人 的 眼中 是 不 一 样 的 。 作 为 一 个 整体 ,可 视 化 的 广度 每 天 
都 在 变化 。 可 视 化 的 目的 不 同 , 目 标 读者 可 能 就 会 昌 然 不 同 。 但 无 论 如 何 , 可 视 化 作为 一 
种 媒介 ,用 处 很 大 。 


65 掌握 可 视 化 设计 组 件 


所 谓 可 视 化 数据 ,其 实 就 是 根据 数值 ,用 标尺 .颜色 .位置 等 各 种 视觉 隐喻 的 组 合 来 表 
现 数据 。 深 色 和 浅 色 的 含义 不 同 , 二 维 空间 中 右上 方 的 点 和 左下 方 的 点 含义 也 不 同 。 

可 视 化 是 从 原始 数据 到 条 形 图 .折线 图 和 散 点 图 的 飞跃 。 人 们 很 容易 会 以 为 这 个 过 
程 很 方便 ,因为 软件 可 以 帮忙 插入 数据 ,立刻 就 能 得 到 反馈 。 其 实在 这 中 间 还 需要 一 些 步 
又 和 选择 ,例如 用 什么 图 形 编码 数据 .什么 颜色 对 寓意 和 用 途 是 最 合适 的 。 可 以 让 计算 机 
帮 你 做 出 所 有 的 选择 以 节省 时 间 ,但 是 至 少 , 如 果 清 楚 可 视 化 的 原理 以 及 整合 .修饰 数据 
的 方式 ,你 就 知道 如 何 指挥 计算 机 ,而 不 是 让 计算 机 蔡 你 做 决定 。 对 于 可 视 化 ,如 果 你 知 
道 如 何 解释 数据 ,以 及 图 形 元 素 是 如 何 协作 的 ,得 到 的 结果 通常 比 软件 做 得 更 好 。 

基于 数据 的 可 视 化 组 件 可 以 分 为 4 种 : 视觉 隐喻 ,坐标 系 、 标 尺 以 及 背景 信息 。 不 论 
在 图 的 什么 位 置 ,可 视 化 都 是 基于 数据 和 这 4 种 组 件 创建 的 。 有 时 它们 是 显 式 的 ,而 有 时 
它们 则 会 组 成 一 个 无 形 的 框架 。 这 些 组 件 协同 工作 ,对 一 个 组 件 的 选择 会 影响 到 其 他 
组 件 。 

(1) 组 件 : 不 同 组 件 组 合 在 一 起 构成 图 表 。 有 时 它们 直接 显示 在 可 视 化 视图 中 ,有 
时 它们 形成 背景 图 ,这 都 取决 于 数据 本 身 。 

(2) 标题 : 描述 数据 以 及 高 亮 显示 的 内 容 。 

(3) 视觉 隐喻 : 可 视 化 包括 用 形状 、 颜 色 和 大 小 来 编码 数据 ,选择 什么 取决 于 数据 本 
身 和 目标 。 

(4) 坐标 系 : 用 散 点 图 映射 数据 和 用 圆 饼 图 是 不 一 样 的 。 散 点 图 中 有 之 坐标 和 y 坐 
标 ,其 他 图 中 则 有 角度 ,就 像 直角 坐标 系 和 极 坐 标 系 的 对 比 。 

(5) 标尺 : 有 意义 的 增 量 可 以 增强 可 读 性 ,就 像 改变 焦点 一 样 。 

(6) 背景 信息 : 如 果 可 视 化 产品 的 读者 对 数据 不 熟悉 , 则 应 该 阐明 数据 的 含义 以 及 
读 图 的 方式 。 


6.5.1 视觉 隐喻 


可 视 化 最 基本 的 形式 就 是 简单 地 把 数据 映射 成 彩色 图 形 。 它 的 工作 原理 就 是 大 脑 倾 
向 于 寻找 模式 ,你 可 以 在 图 形 和 它 所 代表 的 数字 间 来 回 切换 。 这 一 点 很 重要 ,你 必须 确定 
数据 的 本 质 并 没有 在 这 反复 切换 中 丢失 ,如 果 不 能 映射 回 数据 ,可视化 图 表 就 只 是 一 堆 无 
用 的 图 形 。 所 谓 视觉 隐喻 ,就 是 在 可 视 化 数据 的 时 候 . 用 形状 、 大 小 和 颜色 来 编码 数据 。 











矿 数 据 可 摘 化 


必须 根据 目的 来 选择 合适 的 视觉 隐喻 ,并 正确 使 用 它 。 而 这 又 取决 于 你 对 形状 、 大 小 和 颜 
色 的 理解 。 看 看 图 6-20, 它 展示 出 了 有 哪些 是 我 们 能 用 的 视觉 隐喻 。 

位 置 长 度 角度 

数据 在 空间 中 的 位 置 图 形 的 长 度 向 量 的 旋转 
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(d) (e) (DD 


体积 饱和 度 色调 
三 维 图 形 的 大 小 色调 的 强度 通常 就 是 指 颜色 
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国 
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(g) (h) 0) 
图 6-20 可视化 可 用 的 视觉 隐喻 






































1. 位 置 


用 位 置 作 视 觉 隐 喻 时 ,要 比较 给 定 空间 或 坐标 系 中 数值 的 位 置 。 如 图 6-21 所 示 , 观 
察 散 点 图 的 时 候 , 是 通过 一 个 数据 点 的 工 坐标 和 yy 坐标 以 及 和 其 他 点 的 相对 位 置 来 判 
断 的 。 

只 用 位 置 作 视觉 隐喻 的 一 个 优势 就 是 , 它 往往 比 其 他 视觉 隐喻 占用 的 空间 更 少 。 因 
为 可 以 在 一 个 XY 坐标 平面 里 画 出 所 有 的 数据 ,每 一 个 点 都 代表 一 个 数据 。 与 其 他 用 尺 
才 大 小 又 比较 数值 的 视觉 隐喻 不 同 .坐标 系 中 所 有 的 点 大 小 相同 。 然 而 ,绘制 大 量 数据 之 
后 ,一 眼 就 可 以 看 出 趋势 群集 和 离 群 值 。 
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这 个 优势 同时 也 是 劣势 。 观 察 散 点 图 中 的 大 量 数据 点 ,很 难 分 辨 出 每 一 个 点 分 别 表 
示 什 么 。 即 便 是 在 交互 图 中 ,仍然 需要 鼠标 悬 停 在 一 个 点 上 以 得 到 更 多 信息 ,而 点 重 释 时 
会 更 不 方便 。 

上 升 趋势 下 降 趋势 

















(a) (b) 
图 6-21 散 点 图 


2 长 度 


长 度 通 常用 于 条 形 图 中 ,条 形 越 长 ,绝对 数值 越 大 。 不 同方 向 上 ,如 水 平方 向 、 垂 直方 
向 或 者 圆 的 不 同 角度 上 都 是 如 此 。 

长 度 是 从 图 形 一 端 到 另 一 端的 距离 .因此 要 用 长 度 比 较 数值 ,就 必须 能 看 到 线条 的 两 
端 ,否则 得 到 的 最 大 值 .最 小 值 及 其 间 的 所 有 数值 都 是 有 偏差 的 。 

图 6-22 给 出 了 一 个 简单 的 例子 , 它 是 一 家 主流 新 闻 媒 体 在 电视 上 展示 的 一 幅 税率 调 
整 前 后 的 条 形 图 。 


从 34% 开 始 的 坐标 轴 从 0 开始 的 坐标 轴 
40% 40% 39.6% 
39.6% 











38% 
36% 
35.0% 
Se 图 
现在 2015 年 1 月 1 日 现在 2015 年 1 月 1 日 
(a) 错误 的 (b) 正确 的 


图 6-22 条 形 图 





图 6-22(a) 中 两 个 数值 看 上 去 有 巨大 的 差异 。 因 为 数值 坐标 轴 从 34% 开 始 , 导 致 右 
边 条 形 长 度 几 乎 是 左边 条 形 长 度 的 5 倍 。 而 图 6-22(b) 中 坐标 轴 从 0 开始 ,数值 差异 看 上 
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去 就 没有 那么 夸张 了 。 当 然 , 你 可 以 随时 注意 坐标 轴 , 印 证 你 所 看 到 的 (也 本 应 如 此 ) ,但 
这 无 疑 破坏 了 用 长 度 表 示 数 值 的 本 意 ,而 且 如 果 图 表 在 电视 上 一 闪 而 过 的 话 , 大 部 分 人 是 
不 会 注意 到 这 个 错误 的 。 


3. 角度 


角度 的 取 值 范围 是 0 一 360" ,构成 一 个 圆 。 有 90" 的 直角 、 大 于 90" 的 钝 角 和 小 于 90” 
的 锐角 。 直 线 是 180"。 

0 一 360" 之 间 的 任何 一 个 角度 ,都 隐 含 着 一 个 能 和 它 组 成 完整 圆 形 的 对 应 角 ,这 两 个 
角 被 称 作 共 扼 。 这 就 是 通常 用 角度 来 表示 整体 中 部 分 的 原因 。 尽 管 圆 环 图 常 被 当 作 是 饼 
图 的 近亲 ,但 圆 环 图 的 视觉 隐喻 是 弧 长 ,因为 可 以 表示 角度 的 圆心 被 切除 了 。 


4 方向 


方向 和 角度 类 似 。 角 度 是 相交 于 一 个 点 的 两 个 向 量 ,而 方向 则 是 坐标 系 中 一 个 向 量 
的 方向 。 你 可 以 看 到 上 下 左右 及 其 他 所 有 方向 。 这 可 以 帮助 你 测定 斜率 ,如 图 6-23 所 
示 。 在 这 个 图 中 可 以 看 到 增长 .下 降 和 波动 。 


时 序 中 的 方向 
20 人 均 二 氧化 碳 排放 量 / 吨 





| 误 忆 六 寺 时 史 让 加 居 济 有 隐 沁 夺 加 志 检 天 司 济 尖 凤 珊 记 局 加 这 加 加 天 轩 介 不轨 间 大 六 闻 当 六 湖 肥 潜 时光 车 家 电导 | 
1970 年 1980 年 1990 年 2000 年 2010 年 


图 6-23 ”斜率 和 时 序 


对 变化 大 小 的 感知 在 很 大 程度 上 取决 于 标尺 。 例 如 ,可 以 放大 比例 让 一 个 很 小 的 变 
化 看 上 去 很 大 ,同样 也 可 以 缩小 比例 让 一 个 巨大 的 变化 看 上 去 很 小 。 一 个 经 验 法 则 是 : 
缩放 可 视 化 图 表 ,使 波动 方向 基本 都 保持 在 45 左右 。 如 果 变 化 很 小 但 却 很 重要 ,就 应 该 
放大 比例 以 突出 差异 ;相反 ,如 果 变 化 微小 且 不 重要 . 那 就 不 需要 放大 比例 使 之 变 得 显 
著 于 。 
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5. 形状 


形状 和 符号 通常 被 用 在 地 图 中 ,以 区 分 不 同 的 对 象 和 分 类 。 地 图 上 的 任意 一 个 位 置 
可 以 直接 映射 到 现实 世界 ,所 以 用 图 标 来 表示 现实 
世界 中 的 事物 是 合理 的 。 例 如 ,可 以 用 一 些 树 表示 
森林 ,用 一 些 房子 表示 住宅 区 。 

在 图 表 中 ,形状 已 经 不 像 以 前 那样 频繁 地 用 于 
显示 变化 。 例 如 ,在 图 6-24 中 可 以 看 到 ,三 角形 和 
正方 形 都 可 以 用 在 散 点 图 中 。 不 过 ,不 同 的 形状 比 
一 个 个 点 能 提供 的 信息 更 多 。 


6 面积 和 体积 


大 的 物体 代表 大 的 数值 。 长 度 、 面 积 和 体积 分 
别 可 以 用 在 二 维和 三 维 空 间 中 ,来 表示 数值 的 大 小 。 
二 维 空间 通常 用 圆 形 和 乞 形 ,三 维 空间 一 般 用 立方 
体 或 球体 。 也 可 以 更 为 详细 地 标 出 图 标 和 图 示 的 大 小 。 

一 定 要 注意 所 使 用 的 是 几 维 空间 。 最 常见 的 错误 就 是 只 使 用 一 维 ( 如 高 度 ) 来 度量 二 
维 \ 三 维 的 物体 , 却 保持 了 所 有 维度 的 比例 。 这 会 导致 图 形 过 大 或 者 过 小 ,无 法 正确 比较 
数值 。 

假设 你 用 正方 形 这 个 有 宽 和 高 两 个 维度 的 形状 来 表示 数据 ,数值 越 大 ,正方 形 的 面积 
就 越 大 。 如 果 一 个 数值 比 男 一 个 大 50% ,你 希望 正方 形 的 面积 也 大 50%。 然 而 一 些 软件 
的 默认 行为 是 把 正方 形 的 边 长 增加 50% ,而 不 是 面积 ,这 会 得 到 一 个 非常 大 的 正方 形 , 面 
积 增加 了 125% ,而 不 是 50%。 三 维 物 体 也 有 同样 的 问题 ,而 且 会 更 加 明显 。 把 一 个 立方 
体 的 长 宽 高 各 增加 50% ,立方 体 的 体积 将 会 增加 大 约 238%% 。 


7 颜色 


颜色 视觉 隐喻 分 两 类 ,色相 (hue) 和 饱和 度 。 两 者 可 以 分 开 使 用 ,也 可 以 结合 起 来 使 
用 。 色 相 就 是 通常 所 说 的 颜色 ,如 红色 ,绿色 、 蓝 色 等 。 不同 的 颜色 通常 用 来 表示 分 类 数 
据 , 每 个 颜色 代表 一 个 分 组 。 饱 和 度 是 一 个 颜色 中 色相 的 量 。 假 如 选择 红色 ,高 饱和 度 的 
红 就 非常 浓 , 随 着 饱和 度 的 降低 ,红色 会 越 来 越 淡 。 同 时 使 用 色相 和 饱和 度 , 可 以 用 多 种 
颜色 表示 不 同 的 分 类 ,每 个 分 类 有 多 个 等 级 。 

对 颜色 的 谨慎 选择 能 给 数据 增添 背景 信息 。 因 为 不 依赖 于 大 小 和 位 置 ,可 以 一 次 性 
编码 大 量 的 数据 。 不 过 ,要 时 刻 考虑 到 色盲 人 群 ,确保 所 有 人 都 可 以 解读 你 的 图 表 。 有 将 
近 8% 的 男性 和 0.5% 的 女性 是 红 绿 色 盲 ,如 果 只 用 这 两 种 颜色 编码 数据 ,这 部 分 读者 会 
很 难 理解 你 的 可 视 化 图 表 。 可 以 通过 组 合 使 用 多 种 视觉 隐喻 ,使 所 有 人 都 可 以 分 辨 得 出 。 


8 感知 视觉 隐喻 


1985 年 ,AT&T 贝尔 实验 室 的 统计 学 家 威廉 。 克利夫兰 和 罗伯特 。 麦 吉尔 发 表 了 
关于 图 形 感知 和 方法 的 论文 。 研 究 焦点 是 确定 人 们 理解 上 述 视 觉 隐喻 (不 包括 形状 ) 的 精 











图 6-24 散 点 图 中 的 不 同形 状 
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确 程 度 , 最 终 得 出 了 从 最 精确 到 最 不 精确 的 视觉 隐喻 排序 清单 , 即 : 
位 置 一 长 度 一 角度 一 方向 一 面积 一 体积 一 饱和 度 一 色相 
很 多 可 视 化 建议 和 最 新 的 研究 都 源 于 这 份 清单 。 不 管 数据 是 什么 ,最 好 的 办 法 是 知 
道人 们 能 否 很 好 地 理解 视觉 隐喻 ,领会 图 表 所 传达 的 信息 。 


6.5.2 坐标 系 


编码 数据 的 时 候 , 总 得 把 物体 放 到 一 定 的 位 置 。 有 一 个 结构 化 的 空间 ,还 有 指定 图 形 
和 颜色 画 在 哪里 的 规则 ,这 就 是 坐标 系 , 它 赋予 XY 坐标 或 经 纬度 以 意义 。 有 几 种 不 同 的 
坐标 系 , 图 6-25 所 示 的 三 种 坐标 系 几乎 可 以 覆盖 所 有 的 需求 ,它们 分 别 为 直角 坐标 系 (也 
称 为 笛 卡 儿 坐标 系 )、 极 坐标 系 和 地 理 坐 标 系 。 


极 坐标 系 
直角 坐标 系 饼 图 用 的 就 是 极 坐标 系 ， 坐 标 基于 
X7 轴 坐 标 系 半径 r 和 角度 9 


r 





(b) 
地 理 坐 标 系 

经 度 和 纬度 用 来 标识 世界 各 地 的 位 置 。 因 为 地 球 是 圆 的 ， 所 以 有 多 种 不 
同 的 投影 方法 来 显示 二 维 地 理 数据 





(9) 
图 6-25 常用 坐标 系 


1. 直角 坐标 系 
直角 坐标 系 是 最 常用 的 坐标 系 ( 对 应 如 条 形 图 或 散 点 图 )。 通 常 可 以 认为 坐标 就 是 被 
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标记 为 (x,y) 的 XY 值 对 。 坐 标的 两 条 线 垂直 相交 . 取 值 范围 从 负 到 正 , 组 成 了 坐标 轴 。 
交点 是 原点 ,坐标 值 指示 到 原点 的 距离 。 举 例 来 说 ,(0, 0) 点 就 位 于 两 线 交 点 ,(1,2) 点 
在 水 平方 向 上 距离 原点 一 个 单位 ,在 垂直 方向 上 距离 原点 2 个 单位 。 

直角 坐标 系 还 可 以 向 多 维 空间 扩展 。 例 如 ,三 维 空间 可 以 用 (zx,y,x) 三 值 对 来 蔡 代 
(x,y)。 可 以 用 直角 坐标 系 来 画 几 何 图 形 , 以 使 在 空间 中 画图 变 得 更 为 容易 。 


2 极 坐 标 系 


极 坐 标 系 (对 应 如 圆 饼 图 ) 申 一 个 圆 形 网 格 构成 ,最 右边 的 点 是 零度 ,角度 越 大 , 逆 时 
针 旋转 越 多 。 距 离 圆 心 越 远 ,半径 越 大 。 

将 自己 置 于 最 外 层 的 贺 上 , 增 大 角度 , 逆 时 针 旋转 到 垂直 线 ( 或 者 直角 坐标 系 的 Y 
轴 ) ,就 得 到 了 90" ,也 就 是 直角 。 再 继续 旋转 四 分 之 一 ,到 达 180"。 继 续 旋 转 直 到 返回 起 
点 ,就 完成 了 一 次 360 的 旋转 。 沿 着 内 圈 旋 转 ,半径 会 小 很 多 。 

极 坐 标 系 没 有 直角 坐标 系 用 得 多 ,但 在 角度 和 方向 很 重要 时 它 会 更 有 用 。 


3 地 理 坐 标 系 





位 置 数据 的 最 大 好 处 就 在 于 它 与 现实 世界 的 联系 , 它 能 给 相对 于 你 的 位 置 的 数据 点 
带 来 即时 的 环境 信息 和 关联 信息 。 用 地 理 坐 标 系 可 以 映射 位 置 数据 。 位 置 数据 的 形式 有 
许多 种 ,但 通常 都 是 用 纬度 和 经 度 来 描述 的 ,分 别 相对 于 赤道 和 子午 线 的 角度 ,有 时 还 包 
含 高 度 。 纬 度 线 是 东西 向 的 ,标识 地 球 上 的 南北 位 置 。 经 度 线 是 南北 向 的 ,标识 东西 位 
署 。 高 度 可 被 视 为 第 三 个 维度 。 相 对 于 直角 坐标 系 , 纬 度 就 好 比 水 平 轴 , 经 度 就 好 比 垂直 
轴 。 也 就 是 说 ,相当 于 使 用 了 平面 投影 。 

绘制 地 表 地 图 最 关键 的 地 方 是 要 在 二 维 平 面 上 (如 计算 机 屏幕 ) 显 示 球 形 物 体 的 表 
面 。 有 多 种 不 同 的 实现 方法 ,被 称 为 投影 。 当 你 把 一 个 三 维 物体 投射 到 二 维 平面 上 时 ,会 
丢失 一 些 信息 ,与 此 同时 ,其 他 信息 则 被 保留 下 来 了 。 如 图 6-26 所 示 ,这 些 投影 都 有 各 自 
的 优 缺 点 。 


圆柱 投影 圆锥 投影 方位 投影 























6-26 ”地 图 投影 
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6.5.3 标尺 


坐标 系 指定 了 可 视 化 的 维度 ,而 标尺 则 指定 了 在 每 一 个 维度 里 数据 映射 到 哪里 。 标 
尺 有 很 多 种 ,也 可 以 用 数学 函数 来 定义 自己 的 标尺 ,但 是 基本 上 不 会 偏离 图 6-27 中 所 展 
示 的 标尺 ,这 些 标尺 分 为 三 种 ,包括 数字 标尺 、 分 类 标尺 和 时 间 标 尺 。 标 尺 和 坐标 系 一 起 
决定 了 图 形 的 位 置 以 及 投影 的 方式 。 
线性 标尺 对 数 标尺 


数值 等 距 分 布 关注 百分比 变化 
人 [ T T 1 
0 1 2 3 4 0 10 100 1000 10000 
(a) (b) 
分 类 标尺 顺序 标尺 
离散 的 条 形 有 序 的 分 类 标尺 
A B C D E 可 怕 的 坏 的 好 的 很 好 的 非常 好 
(c) (d) 
百分比 标尺 时 间 标尺 
描述 整体 中 的 部 分 以 月 、 日 或 小 时 为 单位 
1 [ T T 
0 25% Ss0% 75% 100% 1 月 2 月 3 月 4 月 5 月 
(©) (D 
图 6-27 标尺 


1. 数字 标尺 


线性 标尺 上 的 间距 处 处 相等 ,无 论处 于 坐标 轴 的 什么 位 置 。 因 此 ,在 标尺 的 低 端 测量 
两 点 间 的 距离 和 在 标尺 高 端 测 量 的 结果 是 一 样 的 。 然 而 ,对 数 标尺 是 随 着 数值 的 增加 而 
压缩 的 ,对 数 标 尺 不 像 线 性 标尺 那样 被 广泛 使 用 。 对 于 不 常 和 数据 打交道 的 人 来 说 , 它 不 
够 直观 ,也 不 好 理解 。 但 如 果 你 关心 的 是 百分比 变化 而 不 是 原始 计数 ,或 者 数值 的 范围 很 
广 , 对 数 标 尺 还 是 很 有 用 的 。 

百分比 标尺 通常 也 是 线性 的 ,用 来 表示 整体 中 的 部 分 时 ,最 大 值 是 100%( 所 有 部 分 
总 和 是 100%)。 


2 分 类 标尺 


数据 并 不 总 是 以 数字 形式 呈现 的 。 它 们 也 可 以 是 分 类 的 ,例如 人 们 居住 的 城市 ,或 政 
府 官 员 所 属 党 派 。 分 类 标尺 为 不 同 的 分 类 提供 视觉 分 隔 ,通常 和 数字 标尺 一 起 使 用 。 拿 
条 形 图 来 说 ,可 以 在 水 平 轴 上 使 用 分 类 标尺 (例如 A、B、C、D、E), 在 垂直 轴 上 用 数字 标 
尺 , 这 样 就 可 以 显示 不 同 分 组 的 数量 和 大 小 了 。 分 类 间 的 间隔 是 随意 的 ,和 数值 没有 关 
系 。 通 常会 为 了 增加 可 读 性 而 进行 调整 ,顺序 和 数据 背景 信息 相关 。 当 然 ,也 可 以 相对 随 
意 ,但 对 于 分 类 的 顺序 标尺 来 说 ,顺序 就 很 重要 了 。 例 如 ,将 电影 的 分 类 排名 数据 按 从 糟 
糕 到 非常 好 的 这 种 顺序 显示 .能 帮助 观众 更 轻松 地 判断 和 比较 影片 的 质量 。 
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3. 时 间 标 尺 


时 间 是 连续 变量 ,你 可 以 把 时 间 数 据 画 到 线性 标尺 上 ,也 可 以 将 其 分 成 月 份 或 者 星期 
这 样 的 分 类 ,作为 离散 变量 处 理 。 当 然 , 它 也 可 以 是 周期 性 的 ,总 有 下 一 个 正午 、 下 一 个 星 
期 六 和 下 一 个 一 月 份 。 和 读者 沟通 数据 时 ,时 间 标 尺 带 来 了 更 多 的 好 处 ,因为 和 地 理 地 图 
一 样 ,时 间 是 日 常生 活 的 一 部 分 。 随 着 日 出 和 日 落 , 在 时 钟 和 日 历 里 ,我 们 每 时 每 刻 都 在 
感受 和 体验 着 时 间 。 


6.5.4 背景 信息 


背景 信息 (帮助 更 好 地 理解 数据 相关 的 5W 信息 , 即 何人 、 何 事 、 何 时 、 何 地 、 为 何 ) 可 
以 使 数据 更 清晰 ,并且 能 正确 引导 读者 。 至 少 , 几 个 月 后 回 过 头 来 再 看 的 时 候 , 它 可 以 提 
醒 你 这 张 图 在 说 什么 。 

有 时 背景 信息 是 直接 画 出 来 的 ,有 时 它们 则 隐 含 在 媒介 中 。 至 少 可 以 很 容易 地 用 一 
个 描述 性 标题 来 让 读者 知道 他 们 将 要 看 到 的 是 什么 。 想象 一 幅 呈 上 升 趋势 的 汽油 价格 时 
序 图 ,可 以 把 它 叫做 “油价 ”, 这 样 显得 清楚 明确 。 你 也 可 以 叫 它 * 上 升 的 油价 ”, 来 表达 出 
图 片 的 信息 。 你 还 可 以 在 标题 底下 加 上 引导 性 文字 ,描述 价格 的 浮动 。 

所 选择 的 视觉 隐喻 ,坐标 系 和 标尺 都 可 以 隐 性 地 提供 背景 信息 。 明 亮 ,活泼 的 对 比 色 
和 深 的 `. 中 性 的 混合 色 表 达 的 内 容 是 不 一 样 的 。 同 样 , 地 理 坐 标 系 让 你 置身 于 现实 世界 的 
空间 中 ,直角 坐标 系 的 XY 坐标 轴 只 停留 在 虚拟 空间 。 对 数 标尺 更 关注 百分比 变化 而 不 
是 绝对 数值 。 这 就 是 为 什么 注意 软件 默认 设置 很 重要 。 

现 有 的 软件 越 来 越 灵 活 ,但 是 软件 无 法 理解 数据 的 背景 信息 。 软 件 可 以 帮 你 初步 画 
出 可 视 化 图 形 , 但 还 要 由 你 来 研究 和 做 出 正确 的 选择 ,让 计算 机 为 你 输出 可 视 化 图 形 。 其 
中 ,部 分 来 自 你 对 几何 图 形 及 颜色 的 理解 ,更 多 则 来 自 练习 ,以 及 从 观察 大 量 数 据 和 评估 
不 熟悉 数据 的 读者 的 理解 中 获得 的 经 验 。 常 识 往往 也 很 有 帮助 。 


6.5.5 整合 可 视 化 组 件 


单独 看 这 些 可 视 化 组 件 没 那么 神奇 ,它们 只 是 漂浮 在 虚无 空间 里 的 一 些 几 何 图 形 而 
已 。 如 果 把 它们 放 在 一 起 ,就 得 到 了 值得 期 待 的 完整 的 可 视 化 图 形 。 

举例 来 说 ,在 一 个 直角 坐标 系 里 ,水 平 轴 上 用 分 类 标尺 ,垂直 轴 上 用 线性 标尺 ,长度 作 
视觉 隐喻 ,这 时 得 到 了 条 形 图 。 在 地 理 坐标 系 中 使 用 位 置信 息 , 则 会 得 到 地 图 中 的 一 个 
个 点 。 

在 极 坐标 系 中 ,半径 用 百分比 标尺 ,旋转 角度 用 时 间 标 尺 ,面积 作 视觉 隐喻 ,可 以 画 出 
极 区 图 ( 即 南 丁 格 尔 玫瑰 图 ) 。 

本 质 上 ,可视化 是 一 个 抽象 的 过 程 , 是 把 数据 映射 到 了 几何 图 形 和 颜色 上 。 从 技术 角 
度 看 ,这 很 容易 做 到 。 你 可 以 很 轻松 地 用 纸 笔画 出 各 种 形状 并 涂 上 颜色 。 难 点 在 于 ,你 要 
知道 什么 形状 和 颜色 是 最 合适 的 、 画 在 哪里 以 及 画 多 大 。 

要 完成 从 数据 到 可 视 化 的 飞跃 ,你 必须 知道 自己 拥有 哪些 原材料 。 对 于 可 视 化 来 说 ， 
视觉 隐喻 ,坐标 系 、 标 尺 和 背景 信息 都 是 你 拥有 的 原材料 。 视 觉 隐 喻 是 人 们 看 到 的 主要 部 
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分 ,坐标 系 和 标尺 可 使 其 结构 化 ,创造 出 空间 感 ,背景 信息 则 赋予 了 数据 以 生命 ,使 其 更 贴 
切 ,更 容易 被 理解 ,从 而 更 有 价值 。 

知道 每 一 部 分 是 如 何 发 挥 作 用 的 ,尽情 发 挥 ,并 观察 别人 看 图 的 时 候 得 到 了 什么 信 
息 : 不 要 忘 了 最 重要 的 东西 ,没有 数据 ,一 切 都 是 空谈 。 同 样 , 如 果 数 据 很 空洞 ,得 到 的 可 
视 化 图 表 也 会 是 空洞 的 。 即 使 数据 提供 了 多 维度 的 信息 ,而 且 粒 度 足 够 小 ,使 你 能 观察 到 
细节 , 那 你 也 必须 知道 应 该 观察 些 什么 。 

数据 量 越 大 ,可 视 化 的 选择 就 越 多 ,然而 很 多 选择 可 能 是 不 合适 的 。 为 了 过 滤 掉 那些 
不 好 的 选择 ,找到 最 合适 的 方法 ,得 到 有 价值 的 可 视 化 图 表 , 你 必须 了 解 自己 的 数据 。 


【延伸 阅读 】 
网 络 可 视 化 的 基本 原则 之 一 : 丰富 词汇 


每 开始 一 个 网 络 可 视 化 项 目 , 都 要 考虑 两 个 关键 因素 : 节点 (或 称 为 顶点 ) 和 连 线 (或 
称 为 边 )。 这 两 个 元 素 看 似 简 单 ,但 往往 都 没有 得 到 充分 应 用 。 常 见 的 设计 都 是 用 圆圈 或 
正方 形 做 节点 ,用 难以 辨认 的 线条 连接 起 来 一 一 可 视 化 工作 者 往往 会 忽略 这 两 个 最 细小 
的 元 素 。 其 实 我 们 可 以 尝试 考虑 更 多 视觉 属性 ,包括 颜色 、 形 状 、 大 小 、 方 向 .材质 、 色 调 以 
及 位 置 。 以 上 7 项 来 自 雅 克 。 贝尔 坦 的 著作 《图 表 记 号 学 》(1984) 中 的 图 形 属性 列表 ,我 
认为 可 视 化 工作 者 应 该 学 习 综 合 运 用 这 些 视觉 属性 ,并 在 实践 中 逐渐 形成 一 种 特定 的 语 
义 关 联 ,从 而 建立 图 形 呈 现 和 数据 的 特性 之 间 对 应 关联 。 

更 多 样 化 的 节点 

节点 是 网 络 图 中 最 基本 的 单位 ,代表 系统 中 的 个 体 。 除 了 用 空心 方形 或 圆 形 来 表示 
外 ,还 可 以 加 入 色彩 或 其 他 视觉 属性 让 这 些 节点 的 含义 更 加 清晰 。 假 如 加 入 互动 属性 , 节 
点 还 能 够 进行 反应 ,提供 不 同 背 景 下 的 数据 信息 。 大 部 分 视觉 属性 (如 大 小 、 颜 色 、 形 状 、 
位 置 ) 能 够 反映 一 个 节点 的 类 型 .重要 性 以 及 功能 可 交互 性 (这 个 节点 能 够 进行 互动 吗 ? 
它 和 其 他 节点 有 没有 隐秘 的 连 线 ? 它 是 否 还 有 其 他 细节 未 显现 ?7)。 当 我 们 开始 考虑 交互 
性 ,就 会 有 一 系列 的 关联 特性 需要 进行 探索 。 节 点 可 以 膨胀 或 收缩 ,显现 或 隐藏 相关 信 
息 ,并 最 终 根据 用 户 的 评价 标准 和 输入 进行 变化 。 例 如 图 6-28, 这 是 哈佛 大 学 伯 克 曼 互 
联网 与 社会 中 心 制作 的 动态 信息 图 截图 。 图 中 展示 了 各 种 各 样 的 媒体 和 个 人 。 图 中 可 见 
数量 异常 丰富 的 节点 ,让 人 能 够 一 眼 就 看 出 不 同 的 类 别 , 例 如 博文 .视频 文件 、 音 频 文件 、 
新 闻 稿 件 、 维 基 百 科 词 条 、 推 特 微 博 、 图 像 以 及 人 。 

又 如 图 6-29, 这 是 “CIA 世界 概况 信息 库 ” 中 关于 国家 地 理 疆界 和 语言 关系 的 交互 信 
息 图 (B 表示 两 个 国家 接壤 ,P 表示 隶属 关系 ,S 表示 使 用 某 种 语言 )。 随 意 选 择 某 个 国家 
的 名 称 , 界 面 就 会 立刻 反应 ,显示 出 与 这 个 国家 相关 的 详细 信息 。 

有 表现 力 的 边线 

边线 连接 图 中 的 节点 ,是 任何 网 络 信息 图 中 的 重要 元 素 没有 这 些 连 线 , 节 点 不 过 
是 空间 中 无 意义 散布 的 点 。 但 是 连 线 所 表达 的 远 不 止 连接 两 点 这 么 简单 。 点 与 点 之 间 的 
连 线 能 够 传达 非常 丰富 的 信息 ,例如 地 理 或 情感 上 的 接近 程度 .交流 的 频率 、 友 谊 的 延续 
时 间 等 。 


























图 6-29 ”网络 节点 的 膨胀 和 收缩 (2) 


边线 所 具备 的 丰富 视觉 表现 力 源 于 地 图 绘制 的 历史 积淀 。 在 一 张 传统 的 国家 地 图 
中 ,可 以 看 到 一 系列 的 线条 组 合 : 两 个 主要 城市 之 间 通 过 各 种 各 样 的 线段 相连 一 主干 
道 、 次 级 道路 ,火车 线路 、 河 流 以 及 其 他 路 径 , 清 晰 易 辨 ,各 不 相同 。 如 图 6-30 所 示 是 来 自 
“维基 百科 : 地 图 专题 ”的 图 例 , 这 是 一 个 教 用 户 制 作 地 理 或 者 拓扑 地 图 的 页 面 , 同 时 也 是 
一 个 共享 资源 库 , 网 友 可 以 发 布 开放 版 权 的 图 片 、 声 音 以 及 其 他 的 媒体 文件 。 从 这 个 图 例 
可 以 看 到 ,不 同 的 点 通常 会 用 不 同 的 图 形 特征 表示 ,例如 首都 城市 .村 庄 等 ;线条 也 一 样 ， 
高 速 公 路 .次 级 公路 、 铁 路 线 等 也 各 有 不 同 。 这 种 区 分 在 很 多 地 图 中 都 可 以 看 到 。 

网 络 可 视 化 也 可 以 采用 这 样 的 制作 手法 。 在 制作 连 线 时 ,要 考虑 如 下 要 素 : 长 度 意 
味 着 数值 的 渐变 ,例如 实际 距离 亲密 程度 、 力 量 强 弱 、 相 似 度 或 者 相关 程度 ;宽度 描述 流 
体 的 密度 或 强度 ,也 可 以 用 来 表达 数值 的 渐变 ;颜色 用 于 区 分 或 强调 特定 的 群体 、 类 别 以 
及 集群 ,或 者 用 来 强调 特殊 的 连 线 ; 形 状 可 以 描述 不 同 的 关系 类 型 ,例如 家 庭 、 朋 友 、 同 事 。 
例如 图 6-31, 是 一 幅 欧 洲 各 国之 间 的 通信 网 络 图 , 橙 线 的 宽度 与 国家 之 间 年 通信 量 成 比 
例 ,比例 为 1 : 1 亿 分 钟 语音 通信 。 位 于 各 国 首都 上 的 圆 形 标志 表示 这 个 国家 年 度 对 外 给 
出 通信 总 量 。 
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图 6-30 地 图 模板 图 6-31 通信 线路 图 


清晰 的 视觉 语言 

但 是 应 用 多 种 视觉 属性 的 过 程 中 要 注意 的 一 点 是 : 并 非 所 有 人 都 能 够 第 一 时 间 读 懂 
你 的 视觉 语言 。 为 了 避免 让 用 户 记忆 这 么 多 的 元 素 ,我 们 可 以 使 用 一 种 广泛 应 用 的 制图 
技巧 一 使 用 图 例 。 地 图 图 例 简单 但 重要 ,要 让 看 地 图 的 人 能 够 快速 辨认 不 同 的 图 形 元 
素 。 网 络 可 视 化 同样 可 以 推广 使 用 图 例 , 要 让 这 些 图 形 词汇 更 易于 理解 。 我 们 的 最 终 目 


的 始终 是 让 用 户 能 够 理解 最 终 设 计 的 作品 。 
资料 来 源 : [ 美 ] Manuel Lima 著 . 杜 明 翰 , 陈 楚 君 译 .《 视 觉 繁 美 一 一 信息 可 视 化 方法 与 案例 解析 》. 


北京 : 机 械 工业 出 版 社 ,2013 
【实验 与 思考 】 
大 数据 可 视 化 的 领军 企业 Tableau 


1. 实验 目的 


(1) 熟悉 大 数据 可 视 化 的 基本 概念 和 主要 内 容 ; 
(2) 通过 网 络 搜索 ,了 解 大 数据 可 视 化 的 领军 企业 Tableau, 并 由 此 进一步 熟悉 大 数 


据 分 析 与 可 视 化 的 专业 市 场 ; 
(3) 熟悉 大 数据 分 析 、 处 理 和 可 视 化 应 用 的 主要 方法 。 


2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能够 访问 因特网 的 计算 机 。 


3. 实验 内 容 与 步骤 
1) 概念 理解 
(1) 请 结合 查阅 相关 文献 资料 , 简 述 数据 可 视 化 的 7 个 数据 类 型 是 什么 。 


弟 昌 多 娄 扬 名 包 可 视 侧 动 起 

















(2) 请 结合 查阅 相关 文献 资料 , 简 述 数据 可 视 化 的 7 项 基本 任务 是 什么 。 
答 : 

















2) 访问 Tableau 公司 官网 

Tableau( 读 ['taeblo]) 是 桌面 办 公 环 境 中 一 款 定位 于 数据 可 视 化 敏捷 开发 和 实现 
的 ,易于 操作 应 用 的 商业 智能 工具 软件 (商务 智能 展现 工具 ,图 6-32), 它 将 数据 运算 与 
美观 的 分 析 图 表 完 美 地 结合 在 一 起 ,可 以 用 它 将 大 量 数 据 拖 放 到 数字 “画布 ?上 ,迅速 
有 效 地 创建 好 各 种 分 析 图 表 。Tableaude 的 用 户 无 须 编 程 ,就 可 以 完全 自 定义 配置 控制 
台 。 在 控制 台 上 不 仅 能 够 监测 信息 ,还 提供 了 完整 的 分 析 能 力 ,灵活 且 具 有 高 度 的 动 
态 性 。 
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图 6-32 Tableau 案例 


Tableau 可 以 用 来 实现 交互 的 可视化 的 分 析 和 仪表 板 应 用 ,从 而 帮助 企业 快速 地 认 
识 和 理解 数据 ,以 应 对 不 断 变化 的 市 场 环 境 与 挑战 。 数 据 可 视 化 让 枯燥 的 数据 以 简单 友 
好 的 图 表 形式 展现 出 来 ,是 一 种 最 为 直观 有 效 的 分 析 方式 。 无 须 过 多 的 技术 基础 ,任何 个 
人 .企业 都 可 以 轻松 学 会 Tableau, 并 运用 其 可 视 化 功能 对 数据 进行 处 理 和 展示 ,从 而 更 
好 地 进行 数据 分 析 工 作 。 





矿 数 扎 可 摘 化 


(1) 浏览 Tableau 简体 中 文官 网 (www. tableau. com/zh-cn, 图 6-33), 从 网 页 视频 等 
内 容 中 了 解 Tableau 产品 的 特色 及 其 表现 力 ,熟悉 Tableau 数据 可 视 化 的 主要 功能 。 
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Tableau 正在 帮助 全 世界 用 户 利用 自己 的 数据 


SS 与 


知州 游 骑 兵 队 的 休 赛 期 字 饮 食品 牌 平 右 如何 交 又 


免费 试用 Tableau 


下 了 全 克 试 用 白 一 








图 6-33 Tableau 简体 中 文官 网 
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请 记录 : 在 Tableau 官方 网 站 中 ,你 最 感 兴趣 的 网 页 内 容 是 什么 ? 
答 : 














(2) 浏览 Tableau 产品 网 页 。 
将 鼠标 指针 指向 Tableau 官网 上 方 的 Products( 产 品 ) 项 ,请 浏览 了 解 。 
请 记录 : Tableau 的 产品 包括 : 
































5. 实验 评价 (教师 ) 











数据 可 视 化 的 过 程 


【导读 案例 】 
关于 素 坦 尼克 号 的 “ 德 坝 图 ” 


泰坦 尼克 号 (RMSTitanic) 是 当时 世界 上 最 大 的 超级 豪华 巨轮 ,被 称 为 是 “ 永 不 沉没 
的 客轮 ”和 “梦幻 客轮 ”"。 它 与 姐妹 船 奥林匹克 号 (RMSOlympic) 和 不 列 颠 尼克 号 
(HMHSBritannic) 一 道 为 英国 白星 航运 公司 的 乘客 们 提供 快速 且 和 舒适 的 跨 大 西洋 旅行 ， 
是 同 级 三 艘 超级 邮 船 中 的 第 二 舰 。 泰 坦 尼 克 号 共 耗 资 7500 万 英镑 ,吨位 46328 吨 , 长 
882.9 英尺 , 宽 92.5 英尺 ,从 龙骨 到 四 个 大 烟 身 的 顶端 有 175 英尺 ,高 度 相 当 于 11 层 楼 。 

1912 年 4 月 10 日 ,泰坦 尼克 号 从 英国 南安 普 敦 出 发 ,途经 法 国 瑟 堡 - 奥 克 特 维尔 以 及 
爱尔兰 的 昆 士 敦 ,计划 中 的 目的 地 为 美国 的 纽约 ,开始 了 这 稻 “ 梦 幻 客轮 ”的 处 女 航 。 
4 月 14 日 晚 11 上 点 40 分 ,泰坦 尼克 号 在 北大 西洋 撞 上 冰山 ,两 小 时 四 十 分 钟 后 ,4 月 15 日 
凌晨 2 点 20 分 沉没 ,由 于 缺少 足够 的 救生 艇 ,1731 人 其 身 海底 .造成 了 当时 在 和 平时 期 
最 严重 的 一 次 航海 事故 ,也 是 迄今 为 止 最 广 为 人 所 知 的 一 次 海难 (图 7-1)。 





图 7-1 泰坦 尼克 号 沉没 


在 数据 可 视 化 中 ,多 变量 数据 的 描述 一 直 是 一 个 富有 挑战 的 课题 ,刺激 着 新 技术 的 不 
断 产生 ,如 坐标 图 、 散 点 图 和 矩阵、 关联 直方 图 、 镶 谈 图 等 。 这 里 ,我 们 通过 泰坦 尼克 号 的 例 
子 来 解释 镶 谱 图 的 概念 。 泰 坦 尼 克 号 乘员 2201 人 中 有 1731 名 旅客 及 工作 人 员 表 生 。 
表 7-1 显示 的 原始 数据 包含 4 个 属性 : 性 别 、 是 否 存 活 、 舱 位 等 级 以 及 成 人 /儿童 。 
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表 7-1 泰坦 尼克 号 事件 的 原始 数据 


















































存 活 年 纪 性 别 和 人 
头等 舱 二 等 舱 三 等 舱 工作 人 员 
否 成 人 男 118 154 387 670 
是 57 14 75 192 
否 儿童 0 0 35 0 
是 5 11 13 0 
否 成 人 女 4 13 89 3 
是 140 80 76 20 
否 儿童 0 0 17 0 
是 Wn 1 14 0 
如 果 没 有 仔细 分 析 , 很 难 从 这 个 表 中 读 出 有 用 信息 。 我 们 可 以 通过 以 下 方法 生成 一 


个 对 应 的 镶嵌 图 : 首先 生成 一 个 矩形 , 令 它 的 面积 表示 船上 的 总 人 数 ( 图 7-2(a))。 然 后 根 
据 舱 位 等 级 将 这 个 矩形 分 成 4 个 稍 小 的 矩形 ,它们 的 面积 表示 各 舱位 的 人 员 数 (图 7-2(b)) 。 


头等 舱 二 等 舱 三 等 舱 。 工作 人 员 
(a) vy 


““ 朋 唱 囊 “ [0 Om 
| i 


成 人 儿童 
头等 和 二 等 给 三 等 能 。 工作 人 员 i 


(d) (c) 
7-2 ”泰坦 尼克 号 事件 的 镶嵌 图 生成 过 程 
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天 茹 晤 本 钢 呈 


下 一 步 再 根据 各 舱位 内 的 人 员 性 别 对 这 4 个 矩形 进行 细 分 (图 7-2(c)), 从 中 我 们 可 以 立即 
看 出 一 些 信 息 , 如 头等 舱 、 二 等 舱 和 三 等 舱 中 的 男女 比例 。 最 后 ,我 们 根据 存活 与 否 (存活 表 
示 为 灰色 ,死亡 表示 为 黑色 ) 或 成 人 /儿童 对 已 有 和 矩形 进行 再 次 细 分 (图 7-2(d))。 

这 个 镀 谋 图 提供 了 对 泰坦 尼克 号 事件 的 最 直观 的 描述 ,同时 也 显现 了 很 多 新 的 信息 
如 乘坐 三 等 舱 或 头等 舱 女 性 的 存活 率 、 女 童 较 之 于 男 童 的 存活 率 等 。 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 请 通过 网 络 搜索 ,了 解 并 记录 你 感 兴趣 的 更 多 关于 泰坦 尼克 号 事件 的 各 个 方面 
的 信息 ,例如 人 文 和 技术 信息 等 。 

答 : 




















(2) 仔细 观察 图 7-2, 你 还 会 产生 哪些 问题 .得 到 哪些 信息 ? 
答 : 














(3) 你 认为 ,在 事件 描述 中 ,表格 和 图 形 方式 分 别 有 哪 些 特点 ,它们 彼此 有 什么 关联 ? 
答 ， 

















(4) 请 简单 记述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 : 
答 : 

















71 分 析 数 据 ,指导 视觉 探索 


如 今 人 们 在 新 闻 里 、 网 站 上 和 图 书 中 看 到 的 那些 漂亮 的 图 表 , 都 是 数据 图 形 的 典范 。 
制作 这 些 图 表 的 人 对 数据 理解 得 越 深 越 透 ,就 越 能 更 好 地 表达 自己 的 研究 成 果 。“ 图 片 最 
伟大 的 价值 在 于 它 迫 使 我 们 注意 到 从 未 预见 到 的 事物 .”( 统 计 学 家 约翰 。 图 基 ) 除 了 用 于 
展示 成 果 ,可视化 也 是 一 个 很 好 的 数据 分 析 工 具 , 它 可 以 帮助 你 探索 数据 ,发 现 通常 在 统 
计 检 验 中 可 能 发 现 不 了 的 东西 。 你 只 需要 知道 目标 是 什么 ,以 及 就 已 有 的 数据 要 提出 什 








第 避 齐 数据 可 物化 的 过 程 


么 问题 。 

研究 者 在 分 析 中 所 采取 的 具体 步骤 会 随 着 数据 集 和 项 目的 不 同 而 不 同 ,但 在 探索 数 
据 可 视 化 时 ,应 着 重 考虑 以 下 4 点 : 

(1) 拥有 什么 数据 ? 

(2) 关于 数据 你 想 了 解 什么 ? 

(3) 应 该 使 用 哪 种 可 视 化 方式 ? 

(4) 你 看 见 了 什么 ,有 意义 吗 ? 

这 些 问 题 中 ,每 个 问题 的 答案 都 取决 于 前 一 个 问题 的 答案 。 图 7-3 显示 了 一 个 和 迭代 
过 程 。 如 果 你 拥有 很 多 数据 ,在 可 视 化 这 些 数据 的 某 一 个 方面 时 ,所 看 见 的 东西 可 能 让 你 
对 其 他 方面 产生 好 奇 ,而 这 种 好 奇 心 反 过 来 会 导致 产生 不 同 的 图 表 。 
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图 7-3 和 迭代 的 数据 探索 过 程 


7.1.1 你 拥有 什么 数据 


人 们 通常 会 想象 可 视 化 应 该 是 什么 样子 ,或 者 去 找 出 一 个 想 要 模仿 的 例子 。 但 是 , 临 
到 要 实践 的 时 候 , 他 们 才 意 识 到 要 么 需要 更 多 的 数据 ,要 么 就 是 想 要 制作 的 图 表 并 不 适合 
那些 数据 一 一 常见 的 错误 是 先 形 成 视觉 形式 ,然后 再 找 数据 。 其 实 应 该 反 过 来 , 先 有 数 
据 , 青 进行 可 视 化 。 通 常 .获取 需要 的 数据 是 最 困难 、 耗 时 最 多 的 一 步 。 以 所 指定 的 格式 
获得 数据 ,再 轻松 地 将 其 导入 选用 的 软件 ,这 在 实际 工作 中 是 很 少见 的 。 研 究 者 可 能 需要 
通过 访问 API 接口 从 网 站 中 费力 地 获取 数据 .或 从 已 有 的 数据 中 挖掘 需要 的 数据 。 这 
时 ,编程 有 助 于 部 分 步骤 的 自动 化 :也 有 越 来 越 多 简单 易 用 的 应 用 程序 可 以 帮助 你 管理 
数据 。 

研究 数据 的 时 候 , 应 该 经 常 停 下 来 想 一 想 它们 代表 着 什么 、, 来 自 哪里 以 及 如 何 衡量 其 
变化 。 


大 上肢 上 曲 可 锣 化 


7.1.2 关于 数据 ,你 想 了 解 什么 


假设 你 有 一 些 数据 要 研究 。 从 哪儿 开始 着 手 呢 ? 如 果 只 有 一 个 数据 点 就 简单 了 ,可 
以 直接 读 取 它 的 值 , 但 是 ,大 多 数 的 发 现 都 会 来 自 外 部 信息 和 其 他 数据 。 另 一 方面 , 当 你 
有 一 个 包含 数 以 千 计 其 至 数 个 百 万 观察 结果 的 数据 集 时 一 一 想象 一 下 有 那么 多 行 的 电子 
表格 ,这 将 非常 具有 挑战 性 ,你 却 不 知道 从 何 下 手 。 

为 了 避免 洽 没 在 数据 的 海洋 中 ,开始 的 时 候 , 应 该 先 问 问 自己 想 从 数据 中 了 解 什么 。 
答案 无 须 复杂 深刻 ,只 是 不 要 太 模 糊 , 回 答 得 越 具体 ,方向 就 越 明确 。 

例如 ,记者 蒂 姆 . 德 . 钱 特 研究 世界 人 口 密 度 , 他 很 好 奇 如 果 全 世界 每 个 人 都 拥有 相 
同 的 居住 空间 ,城市 会 有 多 大 。 直 接 画 出 全 球 人 口 密度 是 一 个 简单 的 方法 ,而 钱 特 却 用 了 
一 个 更 友好 的 视角 ,如 图 7-4 所 示 。 

如 果 全 球 69 亿 人 居住 在 一 个 城市 里 ， 密 度 和 下 列 城市 一 样 ， 那 么 这 个 城市 有 多 大 呢 ? 


巴黎 由 旧金山 f 
331 336 平 方 千 米 1030 751 平 方 千 米 





纽约 Da 伦敦 Np 
648 544 平 方 千 米 1434 193 平 方 千 米 


新 加 坡 时 休斯顿 
981 789 平 方 千 米 4 581 910 平 方 千 米 


图 7-4 浓缩 的 世界 人 口 地 图 
(2011,http://persquaremile. com) 
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第 忆 计数 据 可 物化 的 过 程 


你 针对 数据 提问 时 ,也 给 了 自己 一 个 出 发 的 位 置 ,幸运 的 话 , 随 着 研究 的 深入 ,会 出 现 
更 多 需要 研究 的 问题 。 为 更 广泛 的 读者 设计 可 视 化 图 表 时 ,要 在 研究 过 程 中 提出 并 回答 
读者 可 能 会 问 的 问题 ,这 提供 了 研究 的 重点 和 目标 ,对 设计 过 程 也 很 有 帮助 。 


7.1.3 应 该 使 用 哪 种 可 视 化 方式 


有 很 多 图 表 和 视觉 隐喻 的 组 合 可 以 选择 。 在 为 数据 选择 正确 的 表格 时 ,研究 初期 ,更 
重要 的 是 要 从 不 同 的 角度 观察 数据 ,并 深入 到 对 项 目 更 重要 的 事情 上 。 制 作 多 个 图 表 时 ， 
要 比较 所 有 的 变量 ,看 看 有 没有 值得 进一步 研究 的 东西 。 先 从 整体 上 观察 数据 ,然后 放大 
到 具体 的 分 类 和 独立 的 数据 点 。 这 也 是 实验 视觉 形式 的 好 时 机 。 如 果 尝 试用 不 同 的 标 
尺 、 颜 色 、 形 状 、 大 小 和 几何 图 形 , 可 能 会 看 到 值得 进一步 探索 的 图 形 。 如 果 你 的 目标 是 探 
索 研 究 , 那 就 不 要 让 最 佳 实践 清单 阻止 你 尝试 一 些 不 同 的 东西 ,因为 复杂 的 数据 通常 需要 
复杂 的 可 视 化 。 

传统 的 可 视 化 图 ,如 条 形 图 和 折线 图 很 容易 画 , 也 很 容易 看 明白 .这 使 它们 成 了 探索 
数据 的 出 色 工 具 。 目 标 改变 ,选择 也 会 改变 。 如 果 是 设计 仪表 板 ,就 要 使 系统 状态 显示 一 
目 了 然 ,所 以 必须 用 直观 的 方式 可 视 化 数据 以 便于 理解 。 如 果 目 标 是 鼓励 反思 或 激发 情 
感 ,效率 可 能 就 不 是 主要 的 考量 要 素 了 。 


7.1.4 你 看 到 了 什么 ,有 意义 吗 


可 视 化 数据 后 ,你 需要 寻找 一 些 东西 ,包括 增加 、 减 少 、 离 群 值 ,或 者 一 些 组 合 。 同 时 也 
要 注意 有 多 少 变化 ,以 及 模式 有 多 明显 .数据 中 的 差异 与 随机 性 相 比 是 怎样 的 。 因 为 估 值 的 
不 确定 性 、 人 为 的 或 技术 的 错误 或 者 是 因为 人 或 事物 与 众 不 同 , 会 使 观察 结果 与 众 不 同 。 

找到 有 趣 的 东西 时 , 问 问 自己 :“ 它 有 意义 吗 ? 为 什么 有 意义 ?” 人 们 常常 认为 数据 就 
是 事实 ,因为 数字 是 不 可 能 变动 的 。 但 数据 具有 不 确定 性 ,因为 每 个 数据 点 都 是 对 某 一 瞬 
间 所 发 生 事情 的 快速 捕 提 ,其 他 内 容 都 是 你 推断 的 。 


72 分 类 数据 的 可 视 化 


数据 分 析 中 常常 需要 把 人 群 .地 点 和 其 他 事物 进行 分 类 ,分 类 可 以 带 来 结构 化 。 
图 7-5 显示 了 一 些 可 视 化 分 类 数据 的 选择 。 

条 形 图 是 显示 分 类 数据 最 常用 的 方法 。 每 个 矩形 代表 一 个 分 类 ,和 矩形 越 长 ,数值 越 
大 。 当 然 ,数值 大 可 能 表示 更 好 ,也 可 能 表示 更 差 .这 取决 于 数据 集 以 及 制作 者 的 视角 。 
条 形 图 在 视觉 上 等 同 于 一 个 列表 。 每 一 条 都 代表 一 个 值 ,你 可 以 用 不 同 的 矩形 来 区 分 ,也 
可 以 使 用 不 同 的 标尺 和 图 形 表示 同样 的 数据 。 


7.2.1 整体 中 的 部 分 


把 分 类 放 在 一 起 时 ,各 部 分 的 总 和 等 于 整体 ,例如 统计 每 个 地 区 的 人 数 就 得 到 了 全 
国 总 人 数 。 把 分 类 看 成 独立 的 单元 将 有 助 于 你 看 到 整体 分 布 情况 或 单一 种 群 的 蔓延 
情况 。 
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类 
如 果 你 的 数据 是 直接 的 ， 每 个 分 类 都 有 一 个 值 ， 图 表 就 会 容易 画 ， 也 容易 读 。 
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和 颜色 结合 使 用 行路 分 类 比较 


图 7-5 分 类 数据 的 可 视 化 


在 圆 饼 图 中 ,完整 的 圆 表示 整体 ,每 个 扇 区 都 是 其 中 的 一 部 分 。 所 有 扇 区 的 总 和 等 于 
100%% 。 在 这 里 ,角度 是 视觉 隐喻 。 

用 户 需要 决定 是 否 使 用 圆 饼 图 。 分 类 很 多 时 , 圆 饼 图 很 快 会 乱 成 一 团 ,因为 一 个 圆 里 
只 有 这 么 点 空间 ,所 以 小 数值 往往 就 成 了 细 细 的 一 条 线 。 


7.2.2 了 于 分 类 
子 分 类 通常 比 主 分 类 更 有 启示 性 。 随 着 研究 的 深入 ,能 看 到 更 多 内 容 和 更 多 变化 。 


显示 子 分 类 会 使 数据 浏览 更 容易 ,因为 阅读 者 可 以 将 视线 直接 跳 到 他 最 关注 的 地 方 。 
7-6 显示 了 在 调查 中 自称 是 未 成 年 人 的 父母 或 监护 人 的 人 所 占 的 比例 。 这 张 图 看 
儿童 监护 人 
是 否 


7-6 ”只 有 一 个 变量 的 马赛 克 图 


第 人 是 灼 扎 可 坑 仙 的 二 各 


起 来 像 是 堆 和 至 横 条 图 中 的 横 条 。 段 越 大 表示 给 出 这 个 答案 的 人 越 多 ,可 以 看 到 大 多 数 人 
都 给 出 了 和 否定 的 回答 ,一 些 人 给 出 了 肯定 的 回答 (还 有 一 些 人 则 拒绝 回答 ) 。 

如 果 想 知道 回答 是 与 否 的 人 所 受 教 育 的 程度 的 对 比 情况 呢 ? 可 以 引入 另 一 个 维度 : 
它 的 几何 结构 是 一 样 的 , 即 面积 越 大 ,百分比 越 高 。 例 如 ,可 以 看 到 那些 身 为 父母 的 人 大 
学 本 科 毕 业 率 略 低 于 未 当 父母 的 人 (图 7-7) 。 





图 7-7 ”两 个 变量 的 马赛 克 图 


还 可 以 继续 引入 第 三 个 变量 。 学 历 和 教育 的 定位 是 一 样 的 ,但 可 以 看 看 他 们 使 用 电 
子 邮 件 的 情况 。 请 注意 图 7-8 中 每 一 个 子 分 类 的 垂直 分 割 。 可 以 继续 增加 变量 ,但 正如 
所 看 到 的 ,图 表 越 来 越 难 以 读 懂 ,所 以 需要 并 慎 。 


7.2.3 ”看 清 数据 的 结构 和 模式 


对 于 分 类 数据 ,通常 能 立刻 看 到 最 小 值 和 最 大 值 ,这 能 让 你 了 解 到 数据 集 的 范围 。 通 
过 快速 排序 ,也 可 以 很 方便 地 查找 到 数据 集 的 范围 。 之 后 ,看 看 各 部 分 的 分 布 情况 ,大 部 
分 数值 是 很 高 ,很 低 、 还 是 居中 。 最 后 .再 看 看 结构 和 模式 ,如 果 一 些 分 类 有 着 同样 或 差异 
很 大 的 值 .就 要 问 问 为 什么 ,以 及 是 什么 让 这 些 分 类 相似 或 不 同 的 。 
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7-8 三 个 变量 的 马赛 克 图 








可 视 化 时 序数 据 时 ,目标 是 看 到 什么 已 经 成 为 过 去 ,什么 发 生 了 变化 ,以 及 什么 保持 
不 变 , 相 差 程度 又 是 多 少 ( 图 7-9)。 与 去 年 相 比 ,增加 了 还 是 减少 了 ? 造成 这 些 增加 、 减 
少 或 不 变 的 原因 可 能 是 什么 ? 有 没有 重复 出 现 的 模式 ,是 好 还 是 坏 ? 预期 内 的 还 是 出 乎 
意料 的 ? 

和 分 类 数据 一 样 ,条 形 图 一 直 以 来 都 是 观察 数据 最 直观 的 方式 ,只 是 坐标 轴 上 不 再 用 
分 类 ,而 是 用 时 间 。 通 常 ,时 间 段 之 间 的 变化 幅度 比 每 个 点 的 数值 更 有 趣 。 


7.3.1 周期 


一 天 中 的 时 间 ,一 周 中 的 每 一 天 以 及 一 年 中 的 每 个 月 都 在 周而复始 ,对 齐 这 些 时 间 段 
通常 会 有 好 处 。 然 而 ,如 果 条 形 图 看 起 来 像 是 一 个 连续 的 整体 ,会 更 容易 区 分 变化 ,因为 
可 以 看 到 坡度 ,或 者 点 之 间 的 变化 率 。 当 用 连续 的 线 时 ,会 更 容易 看 到 坡度 。 折 线 图 以 相 
同 的 标尺 显示 了 与 条 形 图 一 样 的 数据 ,但 通过 方向 这 一 视觉 隐喻 直接 展现 出 了 变化 。 


时 序 图 


有 很 多 方法 可 以 观察 到 随 着 时 间 推 移 生成 的 模式 ， 


可 以 用 长 度 、 方 向 和 位 置 等 这 些 视觉 暗示 。 
条 形 图 
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折线 图 


线条 使 趋势 更 加 
2- 明显 
1- 


-一 一 一 一 一 一 一 = 
2000 2005 2010 2015 


点 线 图 
3- 
2- 
i 
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径 向 分 布 图 
晚上 12 点 与 折线 图 类 似 ， a 星期 模式 图 形 看 
晚上 9 点 早上 3 点 但 是 围绕 成 了 一 图 上 去 更 有 力 
下 午 6 点 早上 6 点 
下 午 3 点 早上 9 点 
中 午 12 点 


图 7-9 时 序数 据 的 可 视 化 


同样 ,也 可 以 用 散 点 图 ,数据 和 坐标 轴 一 样 ,但 视觉 隐喻 不 同 。 和 条 形 图 一 样 , 散 点 图 
的 重点 在 每 个 数值 上 ,趋势 不 是 那么 明显 (图 7-10)。 











失业 率 
10% - 
4 一 一 一 一 一 = > 2 2 
2% 
’ T T T T T T 
195S 196S 197s 198S 1995s 2005 2015 
图 7-10 稀 疏 的 散 点 图 
如 果 用 线 把 稀 朴 的 点 连 起 来 .如 图 7-11 所 示 ,. 图 的 焦点 就 又 变 了 。 如 果 你 更 关心 整 


体 趋 势 ,而 不 是 具体 的 月 度 变化 ,那么 就 可 以 对 这 些 点 使 用 LOESS 曲线 法 ?, 而 不 是 连接 


中 LOESS 曲线 法 , 即 局 部 加 权 散 点 图 ,这 是 威廉 。 克 利夫 兰 发 明 的 统计 方法 ,适合 数据 子 集 不 同 点 的 多 项 式 函 
数 , 拟 合 后 形成 了 平滑 的 线 。 这 种 方法 用 来 绘制 平滑 曲线 ,结合 了 线性 回归 的 简单 性 和 非 线性 模型 的 灵活 性 。 
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大 上 肢 电 可 钢 比 


每 个 点 ,如 图 7-12 所 示 。 
失业 率 








T T T T T T T 
195S 1965 1975 1985 1995 2005 2015 


图 7-11 用 线 连接 的 稀 朴 散 点 图 








T T T T T T 
195S 1965 1975 1985 1995 2005 2015 
图 7-12 拟 合 的 LOESS 曲线 


当然 ,图 表 形 式 的 选择 取决 于 数据 ,虽然 开始 时 可 能 看 起 来 有 很 多 选择 ,但 通过 实践 
能 知道 使 用 何 种 图 表 最 合适 ,相似 的 数据 集 也 可 能 有 很 多 不 同 的 选择 。 


7.3.2 循环 


影响 到 经 济 以 及 失业 率 的 因素 很 多 .所 以 在 各 个 显著 增加 的 间隔 中 并 没有 表现 出 什 
么 规律 。 例 如 ,数据 没有 显示 出 失业 率 每 十 年 上 升 10%。 然 而 ,很 多 事情 都 是 在 规律 性 
地 重复 着 。 学 生 们 有 暑假 ,人 们 也 常 在 夏天 度假 ,午餐 时 间 通 常 很 集中 ,因此 街角 那些 卖 
肉 夹 馈 的 扒 位 一 到 中 午 就 经 常会 排 起 长 队 。 

来 自 机 场 的 航班 数据 也 显示 了 类 似 的 循环 现象 ,通常 星期 六 的 航班 最 少 , 星 期 五 的 
航班 最 多 。 切 换 到 极 坐 标 轴 . 图 7-13 里 的 星 状 图 (也 称 雷 达 图 、 径 向 分 布 图 或 蛛网 图 )， 
从 顶部 的 数据 开始 , 顺 时 针 看 。 一 个 点 越 接近 中 心 , 其 数值 就 越 低 , 离 中 心 越 远 ,数值 
则 越 大 。 

因为 数据 在 重复 ,所 以 比较 每 周 同一 天 的 数据 就 有 了 意义 。 例 如 ,比较 每 一 个 星期 一 
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图 7-13 时序 数据 的 星 状 图 


的 情况 。 要 和 弄 清 那 些 异 常 值 的 日 期 ,最 直接 的 方法 就 是 回 到 数据 中 一 天 天 地 查看 最 小 值 。 

总 体 来 说 ,我 们 要 寻找 随时 间 推 移 发 生 的 变化 。 更 具体 地 说 是 要 注意 变化 的 本 质 。 
变化 很 大 还 是 很 小 ? 如 果 很 小 , 那 这 些 变化 还 重要 吗 ? 想 想 产生 变化 的 可 能 原因 ,即使 是 
突 发 的 短暂 波动 ,也 要 看 看 是 否 有 意义 。 变 化 本 身 是 有 趣 的 ,但 更 重要 的 是 ,要 知道 变化 
有 什么 意义 。 


74 空间 数据 的 可 视 化 


空间 数据 很 容易 理解 ,因为 任何 时 刻 你 都 知道 自己 在 哪儿 一 一 知道 自己 住 在 哪儿 ,去 
过 哪儿 以 及 想 去 哪儿 。 

空间 数据 存在 自然 的 层次 结构 ,可 以 并 需要 以 不 同 的 粒度 进行 探索 研究 。 在 遥远 的 
太空 中 ,地 球 看 起 来 就 像 个 小 蓝 点 ,什么 也 看 不 到 ;但 随 着 画面 的 放大 ,就 可 以 看 见 陆地 和 
大 片 的 水 域 了 , 那 是 大 陆 和 大 洋 。 继 续 放 大 ,还 可 以 看 见 各 个 国家 及 其 海域 ,然后 就 是 省 、 
州 .县 .区 ,市 .镇 ,一 直到 街区 和 房屋 。 从 概要 视图 到 细节 视图 的 放大 倍数 被 称 为 缩放 系 
数 。 当 缩放 系数 在 5 一 30 之 间 时 ,相互 协调 的 概要 视图 和 细节 视图 对 是 有 效 的 ;然而 ,对 
于 较 大 的 缩放 系数 ,就 需要 一 个 额外 的 中 间 视 图 (图 7-14) 。 

全 球 数据 通常 按 国家 分 类 ,而 国家 的 数据 则 按 州 .省 或 地 区 分 类 。 然 而 ,如 果 对 各 个 
街区 或 相 邻 区 域 的 差异 有 疑问 ,那么 这 种 高 层级 的 集合 就 没有 太 多 用 处 。 因 此 ,研究 路 线 
取决 于 拥有 的 数据 或 者 能 够 得 到 的 数据 。 
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为 数据 可 摘 化 






(b) 中 国 视图 


(d) 杭州 视图 
图 7-14 全 球 和 中 间 视 图 ,它们 为 杭州 的 细节 视图 提供 概要 


为 了 维护 个 人 隐私 ,防止 个 人 住址 泄露 .通常 要 在 发 布 数据 前 聚合 空间 数据 。 有 时 你 
不 可 能 在 更 高 粒度 级 别 进行 估计 ,这 个 工作 量 太 大 了 。 例 如 ,在 具体 国家 之 外 很 少 能 见 到 
全 球 的 数据 ,因为 很 难 在 每 个 国家 都 获取 到 这 么 详细 的 大 样本 数据 。 

如 果 估 算 同 样 的 东西 ,为 什么 不 合并 研究 呢 ? 方法 不 同 , 很 难 获取 可 比较 的 结果 。 而 
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在 其 他 时 候 , 合 并 数据 也 是 有 意义 的 ,因为 人 们 想 要 比较 不 同 的 区 域 。 例 如 ,如 果 使 用 开 
放 数 据 , 通 常 能 看 到 对 国家 ` 省 市 和 县 的 估算 。 虽 然 不 是 很 详细 ,但 仍然 可 以 从 聚合 数据 
中 得 到 信息 。 

等 值 区 域 图 是 在 某 个 空间 背景 信息 中 可 视 化 区 域 数据 时 最 常用 的 方法 。 这 种 方法 使 
用 颜色 作为 视觉 隐喻 ,不 同 区 域 根据 数据 填 色 。 数 值 大 的 区 域 通常 用 饱和 度 高 的 颜色 , 数 
值 小 的 区 域 则 用 饱和 度 低 的 颜色 。 

有 时 空间 数据 确实 包含 具体 的 地 点 ,但 你 对 整体 会 更 感 兴趣 。 你 可 能 有 包含 许多 地 
点 的 数据 集 ,在 大 城市 里 也 有 许 许多 多 的 位 置 点 。 在 绘制 完整 的 地 图 时 ,这 些 点 会 重 秋 在 
一 起 ,很 难 分 辨 出 在 密集 的 地 区 到 底 有 多 少数 据 。 

空间 数据 和 分 类 数据 很 像 ,只 是 其 中 包含 了 地 理 要 素 。 首 先 ,你 应 该 了 解数 据 的 范 
围 , 然 后 寻找 区 域 模式 。 某 个 国家 、 某 个 大 洲 的 某 个 区 域 是 否 聚 集 了 较 高 或 较 低 的 值 ? 关 
于 一 个 人 满 为 患 的 地 区 ,单独 的 数值 只 能 告诉 你 一 小 部 分 信息 ,所 以 想 想 模 式 隐 含 的 意 
义 , 参 考 其 他 数据 集 以 证 实 自己 的 直觉 判断 。 


75 让 可 视 化 设计 更 清晰 


在 研究 阶段 ,你 要 从 各 种 不 同 的 角度 观察 数据 ,浏览 它 的 方方面面 。 你 之 所 以 更 了 解 
图 表 , 是 因为 在 研究 了 大 量 快速 生成 的 图 表 后 你 了 解 了 更 多 的 信息 。 因 此 ,要 用 图 形 方式 
向 人 们 展示 研究 结果 ,就 必须 确保 受众 也 能 很 容易 地 理解 图 表 , 应 该 设计 更 清晰 的 、 简 单 
易 读 的 图 表 。 有 时 候 数据 集 是 复杂 的 ,可 视 化 也 会 变 得 复杂 。 不 过 ,只 要 能 比 电子 表格 提 
供 的 有 用 见解 更 多 , 它 就 是 有 意义 的 。 无 论 是 定制 分 析 工 具 还 是 数据 艺术 ,制作 图 表 都 是 
为 了 帮助 人 们 理解 抽象 的 数据 ,尽力 不 要 让 读者 对 数据 感到 困惑 。 


7.5.1 建立 视觉 层次 


第 一 次 看 可 视 化 图 表 的 时 候 , 你 会 快速 地 扫 一 眼 ,试图 找到 什么 有 趣 的 东西 。 而 实际 
上 . 在 看 任何 东西 时 ,人 的 眼睛 总 是 趋向 于 识别 那些 引 人 注 目的 东西 ,例如 明亮 的 颜色 、 较 
大 的 物体 ,以 及 处 于 身高 曲线 长 尾 端的 人 。 高 速 公路 上 用 橙色 锥 简 和 黄色 警示 标识 提醒 
人 们 注意 事故 多 发 地 或 施工 处 ,因为 在 单调 的 深 色 公 路 背景 中 ,这 两 种 颜色 非常 引 人 注 
目 。 与 此 相反 ,人 山 人 海中 躲 得 很 隐蔽 的 某 个 人 就 很 难 找到 。 

你 可 以 利用 这 些 特点 来 可 视 化 数据 。 用 醒目 的 颜色 突出 显示 数据 ,淡化 其 他 视觉 元 
素 , 把 它们 当 作 背景 。 用 线条 和 箭头 引导 视线 移 向 兴趣 点 。 这 样 就 可 以 建立 起 一 个 视觉 
层次 ,帮助 读者 快速 关注 到 数据 图 形 的 重要 部 分 ,而 把 周围 的 东西 都 当 作 背景 信息 。 对 于 
没有 层次 的 图 表 , 读 者 就 不 得 不 盲目 搜寻 了 。 

举例 来 说 ,图 7-15 是 显示 NBA 球员 使 用 率 和 场 均 得 分 的 散 点 图 。 数 据点 、 拟 合 线 、 
网 格 和 标签 都 用 同样 的 颜色 .线条 粗细 也 一 样 ,没有 呈现 出 一 个 清晰 的 视觉 焦点 。 这 是 一 
张 扁平 图 ,所 有 的 视觉 元 素 都 在 同一 个 层次 上 。 

很 容易 通过 一 些 细微 的 改变 做 出 改进 。 例 如 ,使 网 格 线 变 细 以 突出 数据 ,而 网 格 线 粗 
细 交 蔡 ,很 容易 定位 每 个 数据 点 在 坐标 系 中 的 位 置 : 减 少 网 格 线 的 宽度 使 其 成 为 背景 ,用 
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图 7-15 所 有 视觉 元 素 都 在 同一 个 层次 上 
颜色 和 宽度 把 图 表 的 焦点 转移 到 拟 合 线 上 。 进 一 步调 整 ,减少 网 格 和 数值 标签 ,减少 网 格 


线 。 现 在 ,图 表 的 可 读 性 强 多 了 ,如 图 7-16 所 示 。 
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图 7-16 调整 后 的 图 7-15 


即使 绘制 图 表 只 是 为 了 研究 或 对 数据 进行 概览 ,而 不 是 为 了 察看 具体 的 数据 点 或 者 
数据 中 的 故事 ,例如 趋势 线 , 你 仍然 可 以 通过 视觉 层次 将 图 表 结 构 化 。 同 时 呈现 大 量 的 数 
据 会 造成 视觉 惊吓 。 按 类 别 细 分 则 有 助 于 读者 浏览 图 表 。 

有 时 候 ,视觉 层次 可 以 用 来 体现 研究 数据 的 过 程 。 假 设 在 研究 阶段 生成 了 大 量 的 图 
表 , 你 可 以 用 几 张 图 来 展示 全 景 , 在 其 中 标注 出 具体 的 细节 另 有 图 表单 独 表 示 。 可 以 用 这 
个 思路 来 设计 图 表 , 带 着 读者 跟 你 一 起 分 析 数 据 。 

最 重要 的 是 ,有 视觉 层次 的 图 表 容 易 读 懂 , 能 把 读者 引 向 关注 焦点 。 相 反 , 扁 平 图 则 
缺少 流动 感 ,读者 难以 理解 ,更 难 进行 细致 研究 。 这 肯定 不 是 你 想 要 的 结果 。 


7.5.2 增强 图 表 的 可 读 性 


用 视觉 线索 编码 数据 ,就 需要 解码 形状 和 颜色 以 得 出 见解 ,或 理解 图 形 所 表达 的 内 
容 , 如 图 7-17 所 示 。 如 果 你 没有 清楚 地 描述 数据 , 画 出 可 读 性 强 的 数据 图 ,颜色 和 形状 就 
失去 了 其 价值 。 图 形 和 相关 数据 间 的 联系 若 被 切断 ,结果 就 变 成 了 一 个 几何 图 而 已 。 
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形状 和 颜色 





< 理解 
图 7-17 视觉 隐喻 和 数据 所 表达 内 容 的 联系 





必须 维护 好 视觉 隐喻 和 数据 之 间 的 纽带 ,因为 是 数据 连接 着 图 形 和 现实 世界 。 图 形 
的 可 读 关键 。 你 可 以 对 数据 进行 比较 ,思考 数据 的 背景 信息 及 其 所 表达 的 内 容 , 并 组 
织 好 形状 、 颜 色 及 其 周围 的 空间 ,使 图 表 更 加 清楚 。 

例如 ,在 图 7-18 中 ,尼古拉斯 - 加 西亚 "贝尔 蒙特 基于 来 自 美国 国家 气象 局 的 数据 ， 
将 美国 的 风 场 制作 成 可 视 化 动态 图 。 交 互 的 动画 展示 了 过 去 72 个 小 时 里 风 的 动向 。 线 
条 代表 风向 ,圆圈 半径 代表 风速 ,颜色 代表 气温 。 每 个 标志 都 是 一 个 气象 站 ,你 可 以 用 鼠 
标点 击 图 上 面 的 任何 位 置 以 了 解 更 多 的 细节 。 











图 7-18 美国 风 场 图 
(2011,https://bit. ly/18VRaVb) 


马丁 。 瓦 滕 伯 格 和 费 尔 兰 达 。 维 埃 加 斯 也 用 同样 的 数据 将 风 场 可 视 化 ,但 和 图 7-18 
的 外 表 不 一 样 ,给 人 的 感觉 也 不 一 样 。 如 图 7-19 所 示 , 线 越 密集 , 越 长 ,代表 风速 越 大 。 

图 7-18 中 的 地 图 用 圆圈 显示 了 1200 个 气象 站 的 一 种 模式 ,感觉 像 是 探索 的 工具 ;而 
图 7-19 中 加 入 了 风 的 路 径 , 感 觉 更 像 是 艺术 品 。 可 以 反复 体会 ,两 张 图 都 提供 了 类 似 的 
见解 ,可 帮助 你 推断 当前 的 风 场 。 由 于 前 者 更 像 工具 ,你 可 能 会 用 分 析 的 心态 看 图 中 的 数 
据 ,而 用 欣赏 画廊 中 艺术 品 的 心态 看 待 后 者 。 
7.5.3 人 允许 数据 点 之 间 进 行 比较 

允许 数据 点 之 间 进 行 比较 是 数据 可 视 化 的 主要 目标 。 在 表格 中 ,我 们 只 能 逐个 对 数 
据 进行 认识 ,而 把 数据 放 到 视觉 环境 中 就 可 以 看 出 一 个 数值 和 其 他 数值 的 关联 有 多 大 、 所 
有 数据 点 是 如 何 彼此 相关 的 。 可 视 化 作为 更 好 地 理解 数据 的 一 种 方式 .如 果 不 能 满足 这 
个 基本 需求 , 那 它 就 没有 价值 了 。 即 便 你 只 想 表明 这 些 数 值 都 是 相等 的 ,人 允许 进行 比较 并 
得 出 结论 仍然 很 关键 。 
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图 7-19 美国 风 图 
(2012,http://hint. fm/wind/) 


传统 的 图 表 , 例 如 条 形 图 、 折 线 图 和 点 阵 图 ,它们 都 设计 得 让 数据 点 的 比较 尽 可 能 直 
接 和 明显 。 它 们 把 数据 抽象 成 了 基本 的 几何 图 形 , 可 以 比较 长 度 、 方 向 和 位 置 。 如 
图 7-20 所 示 , 你 通过 一 些微 妙 的 变化 就 可 以 让 图 表 更 难 读 或 易 读 。 例 如 用 面积 作 视 觉 隐 
喻 。 用 面积 来 表示 数值 ,不 是 用 半径 长 度 和 边 长 来 判断 气泡 方块 等 图 形 的 大 小 ,而 是 用 
总 面积 。 实际 上 ,图 形 的 大 小 取决 于 人 们 怎样 用 图 形 来 诠释 数据 。 

难以 比较 易于 比较 
色 阶 范围 小 色 阶 范围 广 


颜色 看 上 去 像 被 水 冲 对 比 度 更 大 ,使 


刷 过 ， 图 案 也 不 明显 加 国 加 ” 加 方 格 图 案 很 明显 
本 上 国 国 图 | 





vs 





(a) 





只 显示 数据 点 加 一 些 视觉 要 素 

@ = 

横向 浏览 时 很 难 比 较 增加 直线 ， 使 
它们 的 位 置 @ @ @ vs 比较 更 容易 
© 本 一 ee 
图 
@ ® 0 
(b) 
图 7-20 人 允许 比较 


第 了 7 富 数据 可 先 化 的 动 吾 
用 面积 作 视觉 暗示 用 长 度 作 视觉 暗示 


虽然 面积 有 其 优点 ， 不 需要 做 平方 根 


但 很 难看 出 细微 的 差 省 变换 就 能 很 容易 
异 全 物 、 看 出 细微 的 差异 
(c) 


图 7-20 ( 续 ) 


然而 ,与 位 置 或 长 度 相 比 ,分 辨 出 二 维 图 形 间 的 细微 差异 会 更 困难 。 当 然 ,这 并 不 是 
说 不 能 用 面积 作 视 觉 隐喻 。 相 反 , 当 数值 间 存 在 指数 级 差异 时 面积 就 大 有 用 武之 地 了 。 
如 果 细 微 的 差别 很 重要 ,就 得 用 其 他 的 视觉 隐喻 了 ,例如 位 置 或 长 度 。 

男 一 方面 ,气泡 图 把 大 数据 和 小 数据 放 在 同一 个 空间 里 ,不 能 像 条 形 图 一 样 直观 、 精 
确 地 比较 数值 。 但 是 就 这 个 例子 而 言 , 条 形 图 也 不 能 很 好 地 进行 比较 。 这 里 还 需要 一 些 

引入 颜色 作为 视觉 隐喻 还 有 一 些 其 他 需要 考虑 的 因素 。 例 如 ,你 知道 色盲 人 群 看 到 
的 红色 和 绿色 是 怎样 的 ,如 果 用 相同 饱和 度 的 红色 和 绿色 ,对 色盲 人 群 来 说 这 两 种 颜色 是 
一 样 的。 颜色 选项 也 会 根据 所 用 的 色 阶 和 表达 的 内 容 而 改变 。 


7.5.4 描述 背景 信息 


背景 信息 能 帮助 读者 更 好 地 理解 可 视 化 数据 。 它 能 提供 一 种 直观 的 印象 ,并 且 增 强 
抽象 的 几何 图 形 及 颜色 与 现实 世界 的 联系 。 可 以 通过 图 表 周 围 的 文字 引入 背景 信息 , 例 
如 在 报告 或 者 新 闻 报道 中 ;也 可 以 用 视觉 隐喻 和 设计 元 素 把 背景 信息 融入 到 可 视 化 图 
表 中 。 

如 图 7-21 所 示 ,斯蒂芬 。 冯 。 沃 利 在 绘 儿 乐 蜡笔 谱 图 中 展示 了 颜色 种 类 的 增加 。 
1903 年 , 绘 儿 乐 品牌 第 一 支 蜡笔 问世 的 时 候 , 只 有 8 种 颜色 。 多 年 来 , 绘 儿 乐 延续 并 开发 
了 已 有 色调 中 的 其 他 颜色 。 到 2010 年 已 经 有 120 种 颜色 了 。 例 如 ,除了 红色 ,还 有 棕 桶 
红色 \ 砖 红色 、 红 褐色 、 紫 褐色 、 橙 红色、 橘红 色 、 紫 红色 、 西 瓜 红 、 亮 紫红 色 、 糊 涂 红 和 独 红 
色 等 。 

用 真实 的 颜色 来 表现 每 一 年 所 有 的 不 同 的 色调 :以 此 显示 出 多 样 性 的 增加 ,这样 做 是 
有 意义 的 。 如 果 换 成 灰 度 模式 ,就 需要 给 每 个 颜色 加 上 标签 ,很 快 , 到 1949 年 时 就 会 乱 成 
一 片 ,无 法 看 清 。 

通常 ,视觉 隐喻 的 选择 会 随 着 你 对 图 表 的 期 望 而 变 化 。 不 能 达到 预期 效果 的 图 表 只 
会 困扰 读者 一 一 当然 ,这 是 从 设计 角度 来 看 的 ,而 非 数 据 的 角度 。 意 外 显示 出 的 趋势 、 模 
式 和 离 群 值 总 是 受 欢迎 的 。 

举例 来 说 ,美国 是 一 个 两 党 制 国家 .有 民主 党 和 共和 党 。 蓝 色 代 表 民 主 党 ,红色 代表 
共和 党 ,因此 图 6-9 中 的 地 图 反映 了 政党 的 颜色 。 翻 转 两 种 颜色 ,比例 不 会 变 ,但 是 因为 
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太 数 扎 可 掀 人 (化 





图 7-21 1903 一 2010 年 “ 绘 儿 乐 色彩 图 ” 
https://bit. ly/1f9sqaMI) 


大 家 已 经 习惯 了 原先 的 政党 颜色 ,会 使 读者 误 以 为 巴 拉 克 。 奥巴马 赢得 了 中 西部 地 区 和 
东南 区 的 支持 ,而 米 特 。 罗 姆 尼 则 得 到 了 西部 地 区 和 东北 地 区 的 支持 。 
背景 信息 同样 可 以 影响 到 几何 图 形 的 选择 。 例 如 ,美国 劳工 统计 局 每 个 月 会 发 布 关 

于 失业 和 就 业 的 人 数 估计 。 图 7-22 显示 了 从 2008 年 2 月 到 2010 年 2 月 间 的 失业 人 数 
情况 。 在 这 段 时 间 里 ,每 个 月 的 失业 人 数 高 于 就 业 人 数 。 条 形 越 长 ,表明 那个 月 的 失业 人 
数 越 多 。 

失业 人 数 / 千 人 

1000， 


800 


2 月 1 月 1 月 
2013 2014 2015 


图 7-22 常见 的 数据 可 视 化 


第 了 富 数据 可 秽 化 的 动 吾 


图 中 全 是 正 数值 ,这 本 身 是 合情合理 的 .但 要 考虑 这 个 图 通常 出 现在 什么 样 的 场合 。 
人 们 期 望 看 到 正 数 方向 表示 就 业 , 负 数 方向 表示 失业 。 然 而 ,图 7-23 的 坐标 系 中 用 负数 
方向 表示 失业 , 负 的 失业 数 也 就 是 新 增 就 业 机 会 数 。 所 以 , 像 图 7-23 那样 用 负 值 来 表示 
失业 更 直观 。 那 些 否定 的 事情 ,用 下 降 来 表示 减少 更 合理 。 而 男 一 方面 , 当 目 标 就 是 减轻 
体重 时 ,体重 的 降低 标 在 坐标 轴 的 正 向 一 侧 效果 会 更 好 。 
失业 人 数 / 千 人 


2 月 1 月 1 月 
02013 2014 2015 
































图 7-23 背景 信息 中 的 数据 可 视 化 


背景 信息 对 于 图 表 的 理解 十 分 重要 。 我 们 再 来 看 个 例子 ,图 7-24 是 一 幅 来 自 实 时 航 
班 追 踪 网 站 FlightAware 的 地 图 。 从 航班 信息 页 中 ,可 以 知道 这 是 2012 年 4 月 19 日 的 
N48DL 次 航班 ,从 路 易 斯 安 纳 州 的 斯 莱 德 尔 飞 往 佛 罗 里 达州 的 萨 拉 索 塔 , 飞 行 时 间 为 4 
小 时 23 分 钟 。 

















图 7-24 从 美国 路 易 安 纳 州 斯 莱 德 尔 飞 往 佛罗里达 州 萨 拉 索 塔 的 航班 


除了 看 起 来 像 个 简陋 的 航班 跟踪 系统 外 ,这 张 地 图 并 没有 什么 值得 注意 的 地 方 。 但 
是 ,实际 情况 是 这 是 一 架 小 型 飞机 的 航线 ,这 架 小 飞机 在 墨西哥 湾 上 空 盘 旋 了 2 个 多 小 时 
后 ,最 终 附 入 大 海 ,飞行 员 失 踪 一 一 些 时 此 刻 , 这 张 地 图 突然 就 有 了 别 的 意义 。 

有 时 ,研究 某 个 数据 集 一 段 时 间 后 .你 很 容易 忘记 其 他 人 不 会 像 你 那样 熟悉 数据 。 当 
你 知道 所 有 的 细节 后 ,很 难 退回 去 并 想起 当初 第 一 次 打开 文档 或 数据 库 时 的 感觉 只 
是 一 堆 数字 。 这 就 是 大 部 分 人 刚 看 到 可 视 化 图 表 时 的 感受 ,因此 要 加 快 他 们 理解 数据 的 
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可 视 化 是 探索 数据 的 好 工具 , 随 着 技术 的 进步 ,与 几 年 前 相 比 ,计算 机 已 不 再 是 一 种 
限制 因素 。 因 此 ,要 从 数据 中 获取 尽 可 能 多 的 关键 信息 ,以 理解 数据 代表 了 什么 、 意 味 着 
什么 ,关键 是 你 要 了 解 如 何 利用 已 有 的 工具 以 及 知道 提出 什么 样 的 问题 。 这 与 是 否 找 到 
合适 的 软件 关系 反而 不 大 。 

要 考虑 拥有 什么 数据 、 能 得 到 什么 数据 、 数 据 来 源 是 什么 、 如 何 获取 以 及 所 有 变量 的 
意义 是 什么 ,然后 用 这 些 额 外 的 信息 来 指导 视觉 探索 。 如 果 把 可 视 化 当 作 分 析 工 具 ,你 必 
须 尽 可 能 多 地 了 解数 据 。 即 使 你 可 视 化 数据 的 目的 仅 是 为 了 将 其 用 于 报告 中 ,探索 研究 
也 可 以 让 你 获得 意外 的 认识 ,这 有 助 于 你 制作 出 更 好 的 图 表 。 


【延伸 阅读 】 
用 遗传 学 数据 重 构 人 类 进化 谱系 


摘要 : 人 类 起 源 与 演化 是 最 受 关注 的 科学 问题 之 一 。 近 年 来 的 遗传 学 研究 成 果 成 为 
理解 人 类 演化 历史 的 最 坚实 证 据 。 由 于 黑猩猩 等 类 人 和 猿 与 现代 人 的 基因 组 差异 极 小 ,所 
以 猩猩 科 与 人 科 合 并 了 ,而 黑猩猩 更 属于 其 中 的 人 族 。 人 族 源 于 大 约 700 万 年 前 ,其 中 ， 
真人 属 在 200 多 万 年 前 源 于 南 猿 属 , 是 普通 意义 上 的 人 类 。 人 类 前 期 演化 出 树 居 人 、 能 
人 、 卢 道夫 人 、 匠 人 等 ,后 期 演化 出 直立 人 和 智 人 两 大 分 支 。 基 于 对 智 人 中 的 现代 人 、 尼 安 
德 特 人 、 丹 尼 索 瓦 人 的 基因 组 分 析 比 较 , 发 现 他 们 是 在 80 万 一 60 万 年 前 分 化 的 ,所 以 智 
人 可 以 相应 分 为 南方 智 人 、 北 方 智 人 和 东方 智 人 三 支 。 现 代 人 都 属于 南方 智 人 ,大 约 20 
万 年 前 发 生 了 体质 变化 ,在 7 万 年 前 走出 非洲 ,扩散 到 全 世界 ,形成 现今 的 8 个 种 族 。Y 
染色 体 的 谱系 演化 与 种 族 的 形成 是 同步 发 生 的 ,因此 两 者 有 较 好 的 对 应 关系 。 正 确认 识 
人 类 历史 与 种 族 差异 ,反对 宣扬 种 族 优 劣 的 种 族 主义 .有 助 于 促进 和 人 类 社会 的 和 谐 , 也 有 
助 于 推进 医学 等 相关 科学 的 发 展 。 

近来 基于 基因 组 学 的 遗传 学 研究 成 果 颠 覆 了 以 往 的 古生物 学 和 生物 分 类 法 ,甚至 动 
摇 了 传统 的 人 类 阶段 进化 论 。 我 们 将 根据 最 新 的 遗传 学 研究 成 果 , 从 猿 类 到 现代 人 种 来 
逐步 重 构 人 类 的 进化 历程 。 


1. 类 人 猿 的 谱系 


长 期 以 来 ,人 类 认为 人 这 个 物种 是 如 此 的 与 众 不 同 ,应 该 脱离 于 动物 界 ,是 一 个 全 新 
的 类 群 。 然 而 , 随 着 系统 生物 学 和 进化 生物 学 的 建立 ,生物 学 家 认识 到 人 类 依然 属于 灵 长 
类 动物 的 范畴 ,与 其 他 的 猿 类 有 着 很 近 的 遗传 关系 。 在 灵 长 类 中 ,没有 尾巴 的 物种 称 为 
猿 。 现 存 的 猿 类 有 两 大 类 : 小 猿 和 大 猿 。 小 猿 是 各 种 长 辟 猿 ,一 般 单列 为 一 个 科 , 是 没有 
争议 的 。 而 对 于 大 猿 ，, 传 统 做 法 是 分 为 猩猩 科 和 人 科 , 猩 狸 科 包 括 红 猩 猩 、 大 猩猩 和 黑 独 
猩 三 个 属 ,而 人 科 只 有 人 类 一 个 属 。 但 是 很 多 进化 学 家 怀疑 ,把 人 科 从 猩猩 科 划 出 来 完全 
是 人 类 一 厢 情 愿 的 做 法 。 而 近年 来 不 断 完善 的 灵 长 类 基因 组 学 的 研究 ,使 得 我 们 更 深入 
地 认识 了 猿 类 的 系统 发 生 关 系 , 也 确定 人 类 并 不 是 一 种 另类 。 套 见 图 7-25。 

人 科 的 谱系 因为 形态 特征 的 模糊 性 ,传统 的 形态 分 类 有 着 先天 缺陷 .不同 的 进化 路 线 
上 可 能 出 现 类 似 的 形态 。 而 基因 组 的 差异 则 是 明确 而 且 可 以 量化 的 ,显然 是 一 种 更 好 的 
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Si 
苏门答腊 自 罗 洲 
‘omascus 猩猩 猩猩 东部 大 猩猩 智 人 。。 倭 时 猩猩。 黑猩猩 

mulatta leucogenys Pongo abelil Pongo pygmaeus Gorlla beringei Gorila gorila Homo saplens Panpaniscus Pan trogiodytes 


锋 科 一 2500-9900 生 


图 7-25 类 人 猿 的 遗传 谱系 : 倭 黑 猩猩 和 黑猩猩 与 现代 人 同 为 人 族 


进化 学 研究 材料 。 两 个 物种 之 间 的 基因 组 差异 程度 ,与 它们 之 间 的 分 化 历史 长 度 是 成 正 
比 的 。 所 以 ,通过 与 地 质 年 代 的 校正 ,基因 组 差异 可 以 转化 为 分 化 时 间 。 一 般 来 说 ,动物 
界 中 在 大 约 1000 万 年 以 内 演化 形成 的 各 个 物种 可 以 划 在 一 个 “ 科 ” 内 。 人 类 与 黑猩猩 的 
基因 组 只 有 不 到 2% 的 差异 ,分 化 历史 也 不 到 600 万 年 ,显然 不 可 能 分 属 两 个 科 。 所 以 ， 
人 科 与 猩猩 科 就 合并 了 。 目 前 国际 上 普遍 采用 的 科 名 是 “人 科 ”(Hominidae)。 其 下 再 分 
猩猩 亚 科 ( 红 狸 猩 ) 和 人 亚 科 ( 大 猩猩 .黑猩猩 ,现代 人 )。 但 是 红 猩 猩 和 其 他 猩猩 的 分 化 年 
代 远 超过 1000 万 年 ,所 以 或 许 也 可 以 单列 为 一 个 科 。 

在 人 亚 科 中 ,分 出 了 大 猩猩 族 和 人 族 。 很 多 被 冠 以 "人 ”的 物种 ,其 实 都 包含 在 人 族 之 
中 。 根 据 目前 的 古生物 学 发 现 ,最 早 的 人 族 的 物种 是 发 现 于 非洲 中 部 的 沙 赫 人, 距 今 大 约 
700 万 年 。 这 显然 已 经 早 于 人 类 与 黑猩猩 的 分 化 年 代 , 所 以 黑猩猩 自然 在 人 族 之 内 ,而 且 
从 形态 上 已 经 比 沙 赫 人 更 为 进化 ,有 更 大 的 脑 容量 。 既 然 沙 赫 人 都 已 被 称 为 “人 ”, 或 许 黑 
猩猩 也 应 该 被 证 明 , 不 能 再 称 为 “猩猩 ”, 至 少 叫 做 “ 黑 猿 ”。 实 际 上 中 国 古 代 所 称 的 猩猩 仅 
指 红 猩猩 ,所 以 颜色 有 猩猩 红 。 


2. 人 族 的 谱系 


如 图 7-26 所 示 , 人 族 的 第 二 类 物种 是 2000 年 发 现 于 肯尼亚 的 千 禧 人 , 距 今 有 约 600 
万 年 。 千 禧 人 的 形态 与 黑猩猩 非常 接近 ,而 其 大 腿 骨 的 形态 甚至 比 晚 300 万 年 的 南 猿 更 
接近 人 类 (真人 属 )。 或 许 南 猿 并 非 我 们 的 直系 祖先 ,人 类 有 可 能 从 千 禧 人 直接 演化 而 来 。 
不 过 由 于 超过 5 万 年 的 化 石 几乎 无 法 分 析 DNA, 所 以 遗传 学 在 人 族 演 化 研究 中 作用 有 
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限 。 而 千 禧 人 的 化 石 也 非常 少 ,无 法 据 此 做 出 明确 的 判断 。 


300 | Kenyanthropus 多 


Austrolopithecus 





600 


图 7-26 人 族 各 属 的 系统 树 : 距 今 300 多 万 年 前 ,从 南 猿 属 分 出 的 真人 属 最 终 胜 出 


地 猿 发 现 于 埃塞俄比亚 , 距 今 约 500 万 年 。 这 一 类 群 的 形态 与 黑猩猩 更 为 接近 ,非常 
有 可 能 是 黑猩猩 的 祖先 。 但 是 它们 的 牙齿 像 南 猿 的 ,所 以 还 是 难以 判断 其 属于 黑猩猩 还 
是 人 类 的 分 支 。 约 400 万 年 前 , 南 猿 出 现 了 ,发 展 成 了 人 族 物种 中 一 个 兴盛 的 类 和 群 ,目前 
发 现 的 依次 有 湖畔 南 猿 、 阿 法 南 猿 、 羚 羊 河南 猿 、 非 洲 南 猿 、 惊 奇 南 猿 、 源 泉南 猿 , 延 续 了 大 
约 200 万 年 。 肯 尼 亚 平 脸 人 能 否 成 为 一 个 独立 的 属 , 目 前 还 有 和 争议。 从 南 猿 演化 出 了 两 
个 进化 策略 截然 相反 的 类 群 : 傍 人 和 真人 。 傍 人 非常 粗壮 ,头顶 有 着 发 达 的 矢 状 博 ,也 就 
是 有 发 达 的 头 部 肌肉 ,后 部 白 此 有 现代 人 的 两 倍 大 .但 是 颅 腔 很 小 。 所 以 傍 人 有 着 发 达 的 
咀嚼 能 力 , 属 于 四 肢 发 达 、 头 脑 简 单 的 类 型 ,很 像 是 一 种 猛兽 。 但 最 新 研究 认为 傍 人 主要 
是 食 草 的 。 与 傍 人 相反 ,真人 则 脑 容 量 不 断 增 大 ,四 肢 和 牙齿 趋向 于 纤弱 。 发 达 的 头脑 最 
终 使 得 真人 在 进化 中 胜出 ,繁衍 至 今 。 

最 有 意思 的 是 , 距 今 二 三 百 万 年 前 的 非洲 ,曾经 同时 生活 着 好 几 种 人 类 的 近亲 ,有 南 
猿 、 傍 人 、 真 人 中 的 能 人 和 卢 道 夫人 ,所 以 人 类 曾经 并 不 孤单 。 


3. 真人 属 的 谱系 


我 们 传统 意义 上 称 的 人 类 ,实际 上 是 狭义 的 人 类 概念 ,也 就 是 生物 分 类 学 上 真人 属 的 
各 个 物种 。 真 人 属 起 源 于 大 约 200 多 万 年 前 。 目 前 找到 的 最 早 的 真人 化 石 是 非洲 东部 约 
230 万 年 前 的 能 人 ,这 一 人 种 可 能 延续 到 了 大 约 140 万 年 前 。 但 是 2010 年 在 南非 的 豪 登 
发 现 的 树 居 人 ,在 形态 上 上 比 能 人 更 原始 ,可 能 是 更 早出 现 的 人 类 。 不 过 目前 找到 的 树 居 人 
化 五 的 时 间 段 是 距 今 大 约 190 万 到 60 万 年 ,不 排除 今后 还 能 发 现 更 早 的 化 石 。 卢 道夫 人 
可 能 是 能 人 的 一 个 分 支 ,发 现 于 肯尼亚 , 距 今 大 约 190 万 年 。 
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前 期 的 人 类 除了 上 述 三 种 以 外 ,在 180 万 一 130 万 年 前 的 非洲 东部 和 非洲 南部 ,还 演 
化 出 了 另 一 种 人 类 一 一 匠人 。 匠 人 从 脑 容量 等 方面 看 ,可 能 拥有 比 能 人 更 高 的 智力 ,在 工 
具 制 作 方面 也 比 能 人 更 先进 。 与 能 人 分 化 以 后 ,匠人 成 为 我 们 现代 人 最 有 可 能 的 直系 祖 
先 。 由 于 前 期 人 类 化 石 的 年 代 久 远 ,无 法 进行 DNA 分 析 , 而 四 个 物种 并 没有 都 留 下 后 代 
可 供 遗 传 分 析 , 所 以 分 子 遗 传 学 对 于 前 期 人 类 的 谱系 分 析 无 法 提供 帮助 。 很 有 可 能 树 居 
人 与 能 人 在 200 万 年 前 已 经 分 化 ,而 在 190 万 年 前 卢 道夫 人 和 匠人 从 能 人 分 化 出 来 。 

后 期 的 人 类 传统 上 分 为 三 大 类 , 即 猿人 (直立 人 ) .古人 (早期 智 人 )、 新 人 (晚期 智 人 ) ， 
曾经 被 认为 是 人 类 发 展 的 三 个 阶段 。 现 在 ,阶段 论 早 已 被 古人 类 学 和 遗传 学 的 研究 结果 
所 抛 齐 。 首 先 , 从 古人 类 学 的 化 石 发 现 看 来 ,直立 人 走出 非洲 ,从 西亚 到 东亚 的 扩张 早 至 
180 万 年 前 。 而 分 子 遗 传 学 对 现存 的 各 个 大 洲 的 现代 人 分 支 进 行 了 分 析 , 无 论 是 全 基因 
组 分 析 , 还 是 线粒体 DNA 分 析 和 YY 染色体 谱系 分 析 都 得 到 了 一 致 结果 ,发 现 所 有 现代 人 
都 是 20 万 年 以 内 重新 起 源 于 非洲 的 。 所 以 现代 人 不 可 能 是 亚洲 的 直立 人 的 后 代 , 直 立 人 
和 智 人 是 两 个 不 同 的 分 支 , 而 不 是 两 个 阶段 。 参 见 图 7-27。 
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图 7-27 真人 属 内 部 的 谱系 结构 : 智 人 与 直立 人 是 后 期 的 两 大 分 支 


从 匠人 演化 出 的 直立 人 分 支 上 ,还 可 能 分 化 出 了 数 个 近 缘 分 支 .包括 法 国 的 托 塔 维尔 
人 、 意 大 利 的 西 布 兰 诺 人 .格鲁吉亚 的 格鲁吉亚 人 。180 万 年 前 的 格鲁吉亚 人 是 迄今 发 现 
在 非洲 之 外 的 最 早 的 人 类 化 石 。 这 几 种 人 也 往往 被 认为 是 直立 人 的 亚 种 。 直 立 人 的 标准 
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种 是 印度 尼 西 亚 的 爪哇 人 ,50 万 年 前 东亚 和 东南 亚 的 人 类 都 属于 直立 人 的 各 个 亚 种 ,其 
中 最 著名 的 有 北京 猿人、 蓝田 猿人 元 谋 猿人 等 。 不过, 元谋 猿人 的 化 石 仅 有 两 颗 牙 。 虽 
然 直 立 人 在 东亚 和 东南 亚 广 泛 分 布 ,但 种 群 可 能 非常 小 ,很 多 分 布点 持续 时 间 很 短 , 这 些 
种 群 已 陆续 灭亡 ,其 中 印尼 爪哇 岛 的 梭 罗 人 一 直 生 存 到 了 14 万 年 前 。 直 立 人 中 最 奇特 的 
是 印尼 东部 弗 洛 勒 斯 岛 发 现 的 费 洛 勒 斯 人 。 这 个 人 类 物种 生存 于 9.4 万 一 1.3 万 年 前 ， 
身材 极其 乱 小 ,小 于 110 厘米 。 这 是 迄今 发 现 的 最 矮小 的 人 类 ,可 能 是 因为 数 万 年 生存 于 
狭小 的 海岛 ,应 对 贫乏 的 资源 而 产生 的 适应 。 由 于 特殊 的 形态 , 弗 洛 勒 斯 人 一 般 被 认为 是 
已 经 区 别 于 直立 人 的 独立 物种 。 

1) 三 分 智 人 

智 人 的 谱系 研究 最 近 有 了 重大 进展 。 成 功 获得 尼 安 德 特 人 和 有 丹 尼 索 瓦 人 的 全 基因 组 
数据 可 能 是 近 十 年 内 人 类 进化 研究 中 最 重大 的 成 果 。 欧 亚 大 陆 西部 的 尼 人 生活 到 距 今 大 
约 3 万 年 前 , 欧 亚 大 陆 东 部 的 丹 人 生活 到 距 今 大 约 4 万 年 前 。 通 过 比较 尼 人 、 丹 人 、 现 代 
人 的 全 基因 组 差异 ,三 者 之 间 的 演化 谱系 结构 展示 得 清晰 无 遗 。 尼 人 和 丹 人 之 间 有 大 的 
60 万 年 的 分 化 ,而 他 们 与 现代 人 都 有 大 约 80 万 年 的 分 化 。 所 以 这 三 个 类 型 应 该 代表 着 
智 人 的 三 个 主要 分 支 。 现 代 人 都 是 20 万 年 以 内 走出 非洲 的 ,其 直系 祖先 可 能 是 非洲 早期 
智 人 一 一 罗 德 西亚 人 。 尼 人 广泛 分 布 于 欧洲 和 西亚 ,甚至 散布 到 中 亚 。 丹 人 虽然 发 现 于 
阿尔 泰山 区 ,但 是 可 能 代表 着 整个 东亚 和 东南 亚 地 区 的 早期 智 人 。 所 以 ,早期 智 人 和 晚期 
智 人 的 名 称 意义 并 不 确切 ,更 好 的 名 称 可 以 是 南方 智 人 、 北 方 智 人 、 东 方 智 人 。 

不 过 ,母系 线粒体 的 谱系 分 析 得 出 了 稍 有 不 同 的 三 者 的 间 拓 扑 结构 。 现 代 人 与 尼 人 
分 开 40 多 万 年 ,两 者 与 丹 人 分 开 大 约 100 万 年 。 纯 母系 的 结构 与 全 基因 组 结构 的 差异 ， 
可 能 上 暗示 着 人 类 迁徙 中 的 复杂 故事 ,一 个 人 群 接受 其 他 人 群 的 女性 可 能 是 比较 容易 的 。 
智 人 分 化 的 年 代 , 与 猩猩 ,大 猩猩 .黑猩猩 三 个 属 内 各 两 个 物种 的 分 化 年 代 基 本 一 致 ,原因 
可 能 是 当时 全 球 发 生 了 气候 剧变 。 

智 人 的 起 源 时 间 估 计 在 大 约 120 万 年 前 。 迄 今 发 现 的 最 早 的 欧洲 人 一 一 西班牙 阿 塔 
坡 卡 发 现 的 先驱 人 就 是 那个 年 代 的 。 先 驱 人 已 经 具有 了 很 多 智 人 的 特征 。 但 由 于 先驱 人 
只 是 在 西班牙 县 花 一 现 , 可 能 不 久 就 灭绝 了 ,成 为 了 人 类 进化 中 的 旁 支 ,并 没有 留 下 后 代 。 
最 早 明 确 属于 智 人 的 人 类 物种 是 海德 堡 人 。 这 一 类 群 主要 发 现 于 欧洲 ,生存 年 代 大 约 在 
60 万 一 40 万 年 前 。 海 德 堡 人 的 脑 容量 与 现代 人 基本 相当 ,可 能 是 因为 他 们 身材 巨大 。 欧 
洲 海德 堡 人 的 平均 身高 达到 了 180 厘米 。 有 些 学 者 认为 非洲 同时 期 的 人 类 也 属于 海德 堡 
人 ,例如 南非 发 现 的 “巨人 ”, 是 人 类 物种 中 最 高 大 的 ,达到 213 厘米 。 海 德 堡 人 可 能 有 了 
语言 ,已 经 开始 埋葬 死者 ,很 可 能 是 三 种 知人 分 化 之 初 的 阶段 ,属于 尚未 形成 形态 差异 的 
时 期 。 

对 于 智 人 三 个 分 支 之 间 可 能 发 生 过 的 遗传 交流 ,也 就 是 尼 人 和 丹 人 有 没有 遗传 成 分 
传 到 现存 的 现代 人 中 ,是 人 类 进化 研究 中 最 引人入胜 的 课题 。 在 尼 人 和 丹 人 的 基因 组 数 
据 出 来 之 前 ,对 于 三 种 知人 之 间 的 遗传 交流 只 能 局 限于 猜想 。 现 在 ,通过 比较 三 种 基因 
组 ,我 们 已 经 能 够 比较 精确 地 知晓 。 在 2010 年 之 前 ,通过 纯 父系 的 了 染色 体 和 纯 母 系 的 
线粒体 DNA 分 析 , 在 现代 人 中 没有 发 现任 何 尼 人 或 者 丹 人 的 成 分 。 但 是 最 近 的 全 基因 
组 分 析 得 到 了 稍 有 不 同 的 结果 。 人 非洲 现代 人 中 ,依旧 没有 发 现任 何 尼 人 或 丹 人 的 遗传 成 
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分 。 但 是 在 非洲 之 外 的 现代 人 群 中 ,都 发 现 有 1% 一 4% 的 尼 人 基因 组 成 分 。 而且, 这 些 
基因 交流 是 在 大 约 7 万 年 前 现代 人 刚刚 走出 非洲 的 时 候 发 生 的 ,其 后 就 再 也 没有 发 生 过 ， 
虽然 现代 人 与 尼 人 在 欧洲 共存 了 数 万 年 。 所 以 走出 非洲 以 后 分 化 形成 的 世界 各 地 的 人 群 
中 都 保存 了 相同 的 尼 人 基因 比例 。 

丹 人 虽然 发 现 于 北 亚 地 区 ,但 是 在 亚洲 大 陆 上 的 现代 人 和 群 中 没有 发 现任 何 丹 人 的 遗 
传 成 分 。 反 而 ,在 大 洋 洲 的 新 几内亚 土著 人 和 群 中 发 现 了 大 约 6% 的 遗传 比例 。 很 有 可 能 
新 几内亚 土著 的 祖先 在 迁徙 途经 中 南 半 岛 时 接触 到 了 丹 人 群体 ,发 生 了 基因 交流 。 所 以 
可 以 确定 , 丹 人 的 地 理 分 布 很 广泛 ,至 少 从 北 亚 到 东南 亚都 存在 ,而 有 全 人 口 不 少 , 有 机 会 把 
可 观 的 遗传 基因 流传 到 新 几内亚 现代 人 中 。 丹 人 生活 的 时 期 ,与 “东亚 早期 智 人 ”的 生活 
时 期 大 致 重合 ,可 以 推断 所 谓 “ 东 亚 早 期 智 人 ”与 “ 丹 人 ”就 是 同一 个 物种 。 

东亚 现代 人 为 何 没有 与 丹 人 发 生 基因 交流 ,这 是 一 个 不 容易 解释 的 事实 。 研 究 者 曾 
经 期 待 早 期 的 东亚 现代 人 会 有 更 多 的 尼 人 或 者 丹 人 遗传 成 分 。 但 是 ,2013 年 新 发 布 的 北 
京 周 口 店 地 区 4 万 多 年 前 的 田园 洞 人 基因 组 , 却 与 现代 的 中 国人 几乎 没有 差别 ,没有 更 多 
“早期 智 人 ”的 遗传 成 分 。 看 来 ,三 种 智 人 之 间 的 基因 交流 可 能 发 生 过 ,但 是 非常 有 限 。 

2) 现代 人 的 8 个 分 支 

非洲 的 南方 智 人 在 至 少 16 万 年 前 开始 发 生 明 显 的 形态 变化 ,在 埃塞俄比亚 演化 出 了 
长 者 智 人 ,其 形态 间 于 罗 德 西亚 人 和 现代 人 之 间 。 但 在 埃塞俄比亚 还 发 现 了 几 近 20 万 年 
前 的 奥 莫 现代 人 ,说 明 长 者 智 人 可 能 在 更 早 的 时 间 就 形成 了 ,只 是 有 些 群体 并 没有 演化 成 
现代 人 的 形态 。 所 以 现代 人 至 少 20 万 年 前 就 起 源 了 。 但 是 这 些 最 早 的 群体 并 不 能 全 部 
生存 下 来 ,并 不 能 把 所 有 的 基因 库 都 流传 到 现代 。 因 此 ,从 不 同 遗 传 方式 的 基因 组 区 段 ， 
可 以 把 现代 人 的 谱系 追溯 到 不 同 的 年 代 。 纯 母系 的 线粒体 谱系 可 以 最 远 追 溯 到 大 约 20 
万 年 前 ,而 纯 父 系 的 Y 染色 体 只 能 追溯 到 14. 2 万 年 前 。 这 说 明 女 性 有 更 公平 的 生育 权 ， 
也 更 容易 被 其 他 群体 接受 。 所 以 20 万 年 到 14. 2 万 年 之 间 的 很 多 女性 都 留 下 了 直系 后 代 
至 今 , 而 期 间 的 父系 只 有 一 个 最 终 留 下 直系 后 代 至 今 。 

由 于 男性 对 族群 的 主导 性 ,父系 的 遗传 类 型 (Y 染色 体 类 群 ) 容 易 变 少 。 所 以 不 同 群 
体 之 间 差 异 最 大 的 遗传 物质 是 Y 染色 体 类 群 , 也 叫做 了 染色体 单 倍 群 。 全 世界 的 了 染 
色 体 单 倍 群 构成 了 一 个 可 靠 的 谱系 。YY 染色 体 的 主要 单 倍 群 的 形成 需要 长 期 的 隔离 演 
化 ,这 与 现代 人 种 族 的 隔离 演化 机 制 是 一 致 的 。 所 以 现代 人 发 展 早 期 ,Y 单 倍 群 与 人 种 应 
该 有 过 很 好 的 对 应 关系 。 不 过 由 于 近 几 千年 来 人 群 的 大 规模 融合 ,这 种 对 应 关系 稍 有 打 
乱 ( 参 见 图 7-28)。 

YY 染色体 的 根部 类 群 是 A 型 , 仅 存 在 于 非洲 。 其 次 是 也 型 ,也 在 非洲 。 所 以 从 立 染 
色 体 来 看 ,现代 人 肯定 起 源 于 非洲 。C 以 后 的 类 群 (C 一 T) 从 B 分 化 出 来 的 年 代 大 约 是 
7 万 年 ,所 以 现代 人 走出 非洲 的 年 代 不 会 早 于 7 万 年 。A、B、C、D\E 这 5 种 类 群 ,每 一 类 
内 部 的 亚 型 都 是 大 约 6 万 年 前 开始 分 化 形成 的 。 这 一 时 段 就 是 现代 人 最 早 的 种 族 形成 时 
期 。 在 距 今 7 万 多 年 前 ,地 球 上 发 生 了 一 次 巨大 的 灾难 ,苏门答腊 岛 上 的 多 誉 火山 发 生 了 
超级 大 爆发 , 史 称 多 誉 巨 灾 。 此 后 地 球 进入 了 冰期 ,许多 动物 种 群 灭亡 ,人 类 群体 也 大 量 
灭亡 。 留 下 的 少许 小 群体 隔离 分 布 在 非洲 中 部 到 东北 部 ,形成 了 数 个 种 族 。 其 后 由 于 冰 
期 的 海平 面 下 降 ,大陆 之 间 出 现 了 很 多 新 的 陆地 连接 ,人 类 群体 开始 向 各 大 洲 迁 徙 ,种 族 
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图 7-28 全 世界 的 立 染色 体 类 群 分 化 与 现代 人 8 个 种 族 的 形成 是 同步 的 
进一步 演化 。 
1863 年 ,德国 生物 学 家 海 克 尔 绘制 了 一 张 人 类 种 族 起 源 图 谱 (图 7-29)。 在 这 张 图 谱 
中 ,全 世界 的 人 类 分 成 12 个 种 族 。 现 在 ,我 们 对 全 球 的 人 群 有 了 全 面 的 普查 ,所 以 发 现 海 
克 尔 遗漏 了 两 个 矮人 种 族 一 一 非洲 的 伸 格 米 人 与 亚洲 的 尼 格 利 隐 人 。 对 各 人 种 的 遗传 基 
因 的 分 析 也 发 现 , 海 格 尔 列 出 的 某 些 人 种 其 实 是 其 他 人 种 的 混合 群 , 例 如 奴 比 人 种 和 卡 佛 
人 种 是 黑人 种 与 侯 腾 图 人 种 的 不 同 混 合群 , 德 拉 威 达 人 种 是 地 中 海 人 种 与 澳洲 人 种 的 混 








图 7-29 海 克 尔 在 《自然 创造 史 》 中 绘制 的 人 类 种 族 起 源 图 谱 
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合 , 马 来 人 种 是 蒙古 人 种 与 尼 格 利 陀 人 种 的 混合 。 而 美洲 人 种 与 北极 人 种 的 差异 ,以 及 澳 
洲 人 种 与 巴 标 人 种 的 差异 ,其 实 并 不 大 。 

全 世界 的 人 群 一 共有 5 种 肤色 : 橙 、. 黑 、 棕 、 白 、 黄 。 从 全 基因 组 的 分 析 看 来 ,全 世界 
的 人 群 可 以 分 成 8 个 人 种 : 布 须 曙 、 候 格 米 、 尼 格 罗 、 尼 格 利 陀 、 澳 大 利 亚 、 高 加 索 、 蒙 古 利 
亚 、 亚 美 利 加 。 按 照 体质 形态 特征 ,全 世界 的 现代 人 也 可 以 分 为 上 述 8 个 人 种 。 近 年 来 ， 
由 于 政治 上 反 种 族 主义 的 需要 ,西方 遗传 学 界 提 出 特别 的 观点 ,认为 种 族 的 概念 是 没有 遗 
传 学 根据 的 。 其 证 据 主要 是 种 族 之 间 都 存在 过 渡 类 型 ,没有 绝对 的 界线 ;大 多 数 基因 等 位 
型 在 各 个 种 族 内 都 有 一 定 的 频率 分 布 。 实 际 上 ,种 族 主义 的 错误 在 于 认为 种 族 有 高 低 足 
贱 之 分 ,这 导致 了 人 类 历史 上 的 多 次 种 族 灭绝 惨剧 。 反 对 种 族 主义 ,是 要 反对 种 族 歧 视 ， 
反对 种 族 在 先天 上 有 优 劣 之 分 ,而 不 是 否认 种 族 在 外 形 和 遗传 历史 上 的 客观 差异 。 如 果 
说 黑人 与 白人 在 生物 学 上 没有 差异 ,这 显然 不 符合 客观 事实 。 西 方 遗 传 学 界 提 出 的 种 族 
之 间 有 过 渡 ,其 实 是 近 几 千年 来 人 群 的 混合 造成 的 。 例 如 ,在 加 惑 比 群岛 上 ,还 存在 美洲 
印第安 人 与 黑人 之 间 的 过 渡 类 型 ,显然 是 人 群 混合 形成 的 ,而 不 是 美洲 人 从 非洲 渐变 而 来 
的 过 渡 类 型 。 等 位 基因 类 型 在 种 族 之 间 也 大 多 没有 必要 差异 截然 ,毕竟 现代 人 与 黑猩猩 
的 基因 组 也 只 有 2 中 以 下 的 差异 。 所 以 种 族 的 基因 组 之 间 , 只 要 有 少数 基因 有 特异 性 分 
布 ,就 足以 支持 种 族 的 生物 学 存在 了 。 

3) Y 染色体 谱系 与 人 种 的 同步 演化 

参见 图 7-30。 与 现代 人 各 个 种 族 对 应 关系 最 好 的 遗传 材料 是 Y 染色体 的 谱系 。 根 
据 Y 了 染色 体 的 谱系 分 析 , 最 古老 的 类 型 是 A 群 ,集中 分 布 于 非洲 南部 和 东北 部 ,也 零星 分 
布 于 中 非 。 相 关 的 人 种 是 非洲 南部 的 布 须 曼 人 (旧称 开 普 人 种 或 候 腾 图 人 种 ) ,非洲 东北 
部 的 尼 罗 - 撒 哈 拉 人 ( 奴 比 人 种 ) 也 与 之 有 关 。A 群 下 面 的 有 些 亚 型 只 出 现在 埃塞俄比亚 
的 一 些 群 体 中 。 最 近 的 研究 指出 ,A 群 可 以 追溯 到 非洲 中 部 偏 东北 地 区 ,非洲 南部 布 须 
曼 人 的 A 群 也 是 从 北方 而 来 。 布 须 曼 人 的 科 依 桑 语 系 的 语音 是 世界 语言 中 最 为 特别 的 ， 
有 着 复杂 的 搭 嘴 音 。 包 括 尼 罗 - 撒 哈 拉 人 在 内 的 布 须 曼 人 种 的 肤色 呈 橙 红色 ,而 不 是 常见 
的 非洲 人 的 勋 黑色 。 考 古 学 和 遗传 学 研究 都 发 现 ,非洲 的 黑人 只 是 最 近 一 千年 来 从 非洲 
西部 扩张 到 非洲 东部 和 南部 的 ,此 前 非洲 大 部 分 区 域 的 居民 都 是 橙色 人 种 。 在 黑色 人 种 
和 橙色 人 种 的 接触 中 ,Y 染色 体 A 群 也 流入 了 非洲 中 南部 的 黑人 中 。 

年 龄 其 次 的 立 染 色 体 类 群 是 也 群 ,大 致 对 应 中 非 、 刚 果 等 地 热带 雨林 中 的 伸 格 米 小 
和 无 人 。 非 洲 东部 坦桑尼亚 的 哈 扎 比 人 YY 染色 体 也 多 为 互 群 ,他 们 的 身高 也 同样 偏 矮 。 伯 
格 米 人 种 非常 适应 在 热带 雨林 中 生活 ,有 些 村 落 完 全 建造 于 雨林 的 树冠 上 。 他 们 的 肤色 
也 偏 橙色 ,不 同 于 西非 尼 格 罗 人 的 黑色 ,所 以 也 算是 一 种 橙色 人 种 。 矮 小 的 伸 格 米 人 与 高 
大 的 尼 格 罗 人 在 毛发 上 的 特征 差异 也 很 明显 。 成 年 伯 格 米 男 人 有 着 浓密 的 胡须 ,而 尼 格 
罗 人 的 胡须 一 般 很 稀 路 。 

两 个 杠 色 人 种 与 其 他 人 群 的 分 化 都 在 7 万 年 以 上 。 其 他 分 支 都 是 7 万 年 之 内 走出 非 
洲 的 人 群 的 后 代 。 其 中 D 和 下 最早 是 黑人 的 类 群 , 他 们 可 能 是 六 七 万 年 前 在 埃塞俄比亚 
与 也 门 所 在 的 红海 口 处 分 离 。 携 带 巨 群 的 人 群 回 到 非洲 ,一 路 向 西 ,成 为 非洲 西部 的 尼 
格 罗 大 黑人 ;而 携带 D 群 的 人 群 驾 转向 东 迁 徙 ,成 为 东南 亚 的 尼 格 利 陀 小 黑人 。 两 种 黑 
人 的 分 布 区 域 相 距 如 此 逐 远 ,这 是 非常 不 可 思议 的 格局 。 而 在 身高 上 也 达到 两 个 极端 。 
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图 7-30 现代 人 8 个 种 族 的 历史 地 理 分 布 示意 图 
(灰色 部 分 为 无 人 区 ) 


尼 格 罗 人 非常 高 大 ,非洲 西部 有 些 种 群 的 成 年 男子 往往 超过 180 厘米 ,而 尼 格 利 陀 人 成 年 
人 一 般 不 会 超过 150 厘米 ,其 至 更 为 矮小 。 尼 格 利 陀 人 现在 仅 存 于 缅 负 以 南 的 安达 曼 群 
高、 泰国 和 马来西亚 边境 山区 、 菲 律 宾 中 北部 山区 。 但 是 其 对 应 的 站 染色体 D 群 广泛 分 
布 于 青藏 高 原 、 日 本 列岛 和 中 南 半 和 岛 。 所 以 这 些 区 域 很 可 能 是 尼 格 利 陀 人 的 历史 分 布 区 ， 
不 过 后 来 在 黄色 或 棕色 人 种 的 影响 下 发 生 了 人 群体 质变 化 。 很 有 意思 的 是 ,菲律宾 的 尼 
格 利 陀 人 中 没有 发 现 了 D 群 了 染色 体 , 而 有 着 来 自 新 几内亚 的 棕色 人 种 的 C 群 和 群 染 
色 体 。 这 可 能 是 棕色 人 种 后 期 的 扩张 影响 。 而 日 本 列岛 最 早 的 居民 绳 文人 有 着 D 群 染 
色 体 ,身材 也 在 150 厘米 以 下 ,应 该 属于 尼 格 利 陀 人 种 ,但 是 面貌 特征 却 是 典型 的 澳 大 利 
亚 棕 色 人 种 。 所 以 ,在 迁徙 路 线 的 末端 ,人 种 之 间 交 流 的 复杂 程度 远 超 我 们 的 想象 。 

携带 着 了 染色 体 C 群 和 下 群 的 人 群 跨 过 红海 以 后 ,继续 向 北 进发 ,F 来 到 了 两 河流 
域 , 而 C 来 到 印度 河流 域 。 在 这 两 个 区 域 中 ,两 个 人 群 演化 成 了 不 同 的 人 种 。C 人 和 群 形成 
了 棕色 人 种 ,在 五 六 万 年 前 扩散 到 东亚 、 东 南亚 和 澳大利亚 、 新 几内亚 、 美 拉 尼 西 亚 , 也 被 
称 为 澳大利亚 人 种 。 而 下 人 群 则 是 白 种 人 和 黄种 人 的 祖先 。 
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大 约 在 三 四 万 年 前 了 大 类 开始 从 两 河流 域 . 里 海南 岸 扩张 ,其 下 有 G 一 T 14 种 亚 型 。 
G\H\IJL.T 在 欧 亚 大 陆 西 部 成 为 高 加 索 人 种 。 高 加 索 人 种 虽然 往往 被 称 为 白人 ,但 是 
肤色 不 一 定 很 白 。 大 约 2 万 年 前 O 和 N 人 群 来 到 东亚 形成 蒙古 人 种 ,取代 棕色 人 种 成 为 
东亚 的 主体 人 群 。 大 约 1.3 万 年 前 ,N 人 群 从 东亚 扩张 到 北 亚 和 北欧 。 也 是 在 大 约 2 万 
年 前 ,Q 和 及 人 和 群 来 到 了 中 亚 , 但 是 他 们 并 没有 在 当地 形成 独特 的 种 族 ,而 是 大 多 融入 了 
周边 的 种 族 。 大 多 Q 人 群 向 东 迁 徙 加 入 蒙古 人 种 ,部 分 继续 东 迁 ,大 约 1.5 万 年 前 跨 过 
和 白 令 海峡 进入 美洲 ,形成 亚 美 利 加 人 种 。 及 是 中 亚 地 区 的 主要 类 和 群 ,但 同时 大 量 向 西 迁 徙 
加 入 高 加 索 人 种 ,成 为 南欧 人 群 的 主流 。 

随 着 Y 染色 体 谱系 研究 的 深入 ,对 Y 染色 体 各 个 类 群 分 化 时 间 的 分 析 越 来 越 精确 ， 
人 类 群体 演化 的 历史 将 越 来 越 明确 。 客 观 准确 地 认识 人 类 的 演化 历史 ,了 解 种 族 、 民 族 和 
群体 方方面面 的 异同 ,使 我 们 更 好 地 理解 人 群 之 间 、 人 与 自然 之 间 应 有 的 和 谐 关 系 , 更 好 
地 维护 人 群 的 身体 健康 和 社会 健康 。 

资料 来 源 : 李 辉 (博客 ) ,复旦 大 学 现代 人 类 学 教育 部 重点 实验 室 ,2014-08-19 


【实验 与 思考 】 
给 制 新 的 素 坦 尼 交 事件 锋 谍 因 
1. 实验 目的 


(1) 熟 秋 大 数据 可 视 化 的 基本 概念 和 主要 内 容 ; 
(2) 通过 绘制 泰坦 尼克 事件 贸 谋 图 ,尝试 了 解 大 数据 可 视 化 的 设计 与 表现 技术 。 


2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


3. 实验 内 容 与 步骤 
参见 本 章 的 导读 案例 ,为 表 7-1 所 示 的 泰坦 尼克 号 事件 生成 一 个 镶嵌 图 (及 其 生成 过 
程 ) ,注意 使 用 不 同步 骤 ( 例 如 ,是 否 存活 一 性 别 一 舱位 等 级 一 成 年 人 /儿童 ) 。 


镀 嵌 图 可 以 在 纸 上 手 绘 ,如 果 使 用 软件 工具 (例如 Visio) 则 需要 打印 。 请 将 你 绘制 的 
镇 谋 图 粘贴 在 下 方 ,并 注意 折 司 。 


(镶嵌 图 作品 粘贴 线 ) 


请 列 出 你 从 泰坦 尼克 事件 镶 放 图 作品 的 描述 中 提取 出 的 信息 。 
答 


全 : 
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4. 实验 总 结 

















5. 实验 评价 (教师 ) 
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【导读 案例 】 
德 克 萨 斯 大 学 体系 的 透明 化 


美国 德 克 萨 斯 大 学 (德州 大 学 ,UT,University of Texas at Austin ,图 8-1) 是 德 克 萨 
斯 州 境内 最 顶尖 的 高 等 学 府 之 一 , 建 于 1883 年 ,其 主 校园 离 位 于 奥斯汀 的 德州 州 政府 总 
部 不 足 一 里 。 现 有 学 生 人 数 约 五 万 ,为 全 美 高 等 教育 最 庞大 体系 之 一 ,也 是 单一 校园 中 学 
生 人 数 中 第 五 大 的 大 学 。 一 个 世纪 以 来 , 德 克 萨 斯 大 学 体系 一 直 致 力 于 通过 教育 、 研 究 和 
健康 保健 等 提升 德 克 萨 斯 州 以 及 全 世界 人 们 的 生活 。 





图 8-1 德 克 萨 斯 大 学 


如 图 8-2 所 示 为 德 克 萨 斯 大 学 的 校园 生活 ,拥有 如 此 多 的 学 生 和 员工 ,必然 会 产生 大 
量 数据 ,而 德 克 萨 斯 大 学 也 确 确 实 实 对 那些 数据 做 了 些 事情 。 从 2004 年 开始 ,大 学 每 年 
都 会 发 布 有 关 整 个 大 学 体系 状况 的 年 度 会 计 报 告 。 这 些 报告 以 图 表 、 图 形 和 原始 数据 的 
方式 展示 了 具有 洞 见 性 的 有 关 整 个 体系 .学校 .学 生 等 数据 的 现状 。 

事实 上 ,并 非 每 个 学 校 都 能 提供 这 种 透明 程度 的 报告 (滚动 一 份 会 计 报 告 ,你 会 很 吃 
惊 地 发 现 德 克 萨 斯 大 学 竟然 能 够 对 数据 进行 回溯 ), 然 而 , 它 还 做 了 很 多 可 视 化 组 织 所 做 
的 事情 : 通过 数据 可 视 化 , 它 将 其 可 视 化 和 透明 化 推进 到 一 个 更 高 层次 。 尤 其 是 部 署 了 
SAS 的 复杂 数据 可 视 化 应 用 ,还 不 仅仅 只 是 面向 其 员工 ,任何 人 只 需 连 接 互联 网 都 可 以 
了 解 这 些 数据 。 
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图 8-2 德 克 萨 斯 大 学 的 校园 生活 


2011 年 5 月 , 德 克 萨 斯 大 学 启动 了 一 个 卓越 平台 项 目 , 这 是 一 个 推进 德 克 萨 斯 州 教 
育 和 健康 保健 转型 的 宏伟 计划 ,其 愿景 是 :“ 我 们 子孙 后 代 的 未 来 正 处 于 令 人 堪忧 的 境 
地 。 我 们 如 何 能 够 为 不 断 增长 的 学 生 提 供 更 便捷 、 更 廉价 的 高 等 教育 ? 我 们 如 何 才 能 够 
培养 更 多 的 医生 、 护 士 和 健康 专家 ,不 断 推动 德 克 萨 斯 州 健康 医疗 质量 的 提高 ?” 

实现 这 样 的 理想 需要 完善 数据 访问 ,需要 新 的 数据 可 视 化 应 用 ,还 需要 完全 不 同 的 组 
织 化 心智 模式 。2011 年 12 月 , 德 克 萨 斯 大 学 上 线 了 全 系统 生产 力 仪表 盘 , 这 是 一 个 公开 
的 门户 ,对 大 学 运营 管理 和 每 个 校园 绩效 都 提供 了 对 外 开放 的 视图 。 上 线 时 ,包括 德 克 萨 
斯 州 从 业 人 员 、 立 法 会 委员 .媒体 以 及 一 般 公众 等 任何 人 都 能 对 大 学 的 学 生 和 管理 数据 进行 
探索 。 其 核心 就 是 ,仪表 盘 可 以 让 用 户 查看 履 盖 范围 广泛 的 指标 ,并 对 大 量 数 据 进 行 探索 ， 
其 中 包括 学 生 的 成 果 、 教 员 的 成 就 .研究 和 技术 的 转化 以 及 财务 和 成 果 等 。 仪 表盘 还 能 够 让 
用 户 下 载 他 们 所 需要 的 信息 ,以 在 Excel 或 其 他 应 用 上 进行 进一步 深入 的 分 析 。 换 言 之 ,在 
理想 情况 下 ,它们 会 引发 进一步 的 问题 和 对 数据 的 探索 。 让 数据 更 开放 草 藏 着 巨大 利益 。 

2013 年 1 月 , 德 克 萨 斯 大 学 推出 SAS 的 可 视 化 分 析 (Visual Analytics,VA) ,这 种 方 
式 使 数据 观察 更 具 移动 友好 性 。 通 过 VA. 大 学 数据 现在 可 通过 任何 终端 在 任何 地 方 获 
取 。 也 就 是 说 ,员工 和 公众 无 须 受 联网 计算 机 等 条 件 限制 ,也 可 以 访问 大 学 的 公开 数据 。 
通过 iPad, 用 户 可 以 利用 SAS 移动 BI 的 App 来 浏览 数据 ,因为 这 种 方式 可 将 数据 洞 见 
随身 携带 到 任何 地 方 。 

推出 VA 后 不 久 , 德 克 萨 斯 大 学 升级 了 其 仪表 盘 , 增 加 了 更 强大 的 数据 可 视 化 的 新 功 
能 ,这 个 功能 使 得 用 户 能 够 创建 更 高 级 的 数据 视图 。 总 体 上 说 ,这 些 视图 提供 了 数据 相关 
的 所 需 上 下 文 信息 ,使 得 员工 能 够 理解 并 更 好 地 做 出 决策 。 

这 些 年 来 , 德 克 萨 斯 大 学 已 经 采集 了 大 量 的 学 生 数 据 ,数据 量 增长 迅速 ,包括 入 学 和 
学 位 数据 、 学 生财 务 资 助 数 据 、 课 程 级 别 数据 等 。 近 年 来 ,UT 已 经 开始 采集 教师 生产 力 
方面 的 数据 ,包括 研究 经 费 和 学 术 产 出 等 。 

迄今 为 止 , 人 们 已 经 看 到 德 克 萨 斯 大 学 学 术 方 面 已 经 在 常规 性 地 利用 数据 进行 更 好 
的 决策 , 且 非 常 成 功 。 基 于 其 在 全 系统 范围 内 的 沟通 方式 ,不 同 运作 部 门 都 已 经 开始 关注 
并 跃跃欲试 。 基 于 这 些 成 功 经 验 , 德 克 萨 斯 大 学 计划 将 数据 可 视 化 和 数据 发 现 推广 到 现 


188 


第 昌 入 煞 甩 加 钢 化 组 你 


有 的 其 他 系统 中 。 例 如 共享 服务 、 养 老 稽 核 .基础 设施 、 风 险 管理 ,甚至 保安 办 公 室 等 单位 
都 迫切 需要 开展 他 们 的 数据 可 视 化 ,从 而 提出 更 好 的 问题 并 进行 更 好 的 决策 。 更 重要 的 
是 ,他 们 展示 出 新 的 数据 和 机 会 以 发 现 更 有 意义 的 关系 和 模式 一 一 还 不 仅仅 局 限于 单个 
领域 ,而 是 贯穿 大 学 全 体系 内 。 

2013 年 4 月 ,SAS 授予 UT 教育 界 卓 越 奖项 的 年 度 获得 者 称号 。 这 项 荣誉 意味 着 
“这 是 一 家 利用 SAS 改善 运营 、 强 大 领导 能 力 ,为 当前 的 工作 职位 培养 学 生 、 激 发 创新 ， 
并 /或 开拓 教育 机 会 的 教育 组 织 ”,SAS 在 其 宣讲 稿 中 这 样 解释 道 。 

德 克 萨 斯 大 学 在 很 多 层面 都 颇具 启发 性 。 首 先 ,通过 拥有 新 的 数据 源 和 新 型 数据 可 
视 化 工具 ,整个 体系 及 其 构成 成 员 所 做 的 成 就 为 未 来 的 数据 发 现 黄 定 了 坚实 的 基础 。 其 
次 ,大 学 证 明了 行政 支持 的 重要 性 ,是 的 ,通过 员工 、 团 队 和 部 门 的 分 头 努力 ,自然 会 发 生 
很 大 变化 ,但 是 在 大 型 企业 ,高 层 对 数据 透明 化 .可视化 和 探索 性 的 支持 的 重要 性 ,怎么 说 
都 不 为 过 。 

最 后 ,即使 对 于 小 数据 而 言 , 希 望 一 践 而 就 的 想法 是 不 明智 的 ,因为 很 大 程度 依赖 组 
织 文 化 资源 及 其 他 优先 事项 等 诸如 此 类 的 条 件 。 认 识 到 早期 的 成 功 以 及 曾经 犯 下 的 错 
误 , 对 于 数据 可 视 化 的 部 署 是 完全 可 行 的 策略 ,将 学 到 的 经 验 传递 给 其 他 人 ,可 为 组 织 节 
省 大 量 时 间 和 花费 。 

阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 

(1) 德 克 萨 斯 大 学 是 一 所 什么 样 的 大 学 ,长 期 以 来 ,学 校 致力 于 数据 可 视 化 ,主要 做 
了 哪些 实际 工作 ? 

答 : 

















(2) 请 通过 网 络 搜 索 阅读 ,了 解 什么 是 SAS 系统 ,这 个 系统 对 大 数据 分 析 和 可 视 化 
有 什么 作用 ? 
答 : 

















(3) 据 你 了 解 , 你 所 在 的 院 校 在 大 数据 分 析 、 运 用 与 可 视 化 领域 开展 的 工作 与 德 克 萨 
斯 大 学 相 比 ,情况 和 程度 如 何 ? 如 果 把 德 克 萨 斯 大 学 在 这 方面 的 成 就 算 作 100, 请 给 你 所 
在 的 院 校 打 个 分 。 

答 


合 : 
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(4) 请 简单 描述 你 所 知道 的 上 一 周 内 发 生 的 国际 、 国 内 或 者 身边 的 大 事 : 
答 : 
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今天 ,对 数据 进行 可 视 化 的 需求 越 来 越 强烈 ,其 原因 很 简单 : 数据 实在 太 多 太 多 。 亚 
马 逊 . 蔷 果 Facebook 谷歌 Salesforce. com, 推 特 及 其 他 著名 技术 公司 都 已 经 认识 到 数 
据 生态 系统 和 平台 的 重要 性 ,尤其 对 用 户 数 据 而 言 。 


8.1.1 什么 是 数据 驱动 


一 个 数据 驱动 的 组 织 会 以 一 种 及 时 的 方式 获取 、 处 理 和 使 用 数据 来 创造 效益 ,不断 迭 
代 并 开发 新 产品 ,以 及 在 数据 中 探索 。 

有 很 多 方式 可 以 评估 一 个 组 织 是 否 是 数据 驱动 的 ,例如 : 

(1) 产生 的 数据 量 ; 

(2) 使 用 数据 的 程度 ; 

(3) 内 化 数据 的 过 程 。 

其 中 有 效 地 使 用 数据 的 程度 是 关键 。 

公司 有 使 用 数据 来 改善 效益 的 历史 。 例 如 ,任何 好 的 销售 人 员 都 知道 如 何 去 向 消费 
者 推荐 采购 ,而 亚马逊 却 将 这 个 技术 移 到 了 线 上 一 一 那些 浏览 过 这 些 商品 的 客户 同样 浏 
览 了 另外 一 些 东西 。 这 种 简单 的 协同 过 滤 的 实现 是 亚马逊 诸多 特性 的 一 种 ,是 一 个 对 于 
传统 搜索 之 外 的 机 缘 巧 合 的 强大 的 机 制 。 

数据 产品 是 社交 网 站 的 心脏 ,它们 的 数据 必然 是 庞大 的 用 户 数据 集 ,形成 了 一 张 图 。 
也 许 对 于 社交 网 络 来 说 ,最 重要 的 产品 是 某 种 帮助 用 户 链接 彼此 的 工具 。 任 何 新 的 用 户 
需要 找到 新 的 伙伴 、 熟 人 或 者 联系 方式 ,但 让 用 户 自 己 去 搜索 他 们 的 朋友 可 不 是 一 个 好 的 
用 户 体 验 。 如 同 领 英 (LinkedIn) 工 程 师 发 明了 People You May Know(PYMK ,你 可 能 认 
识 的 人 ) 来 解决 这 个 问题 。 在 理论 上 的 确 很 容易 完成 这 项 工作 ,根据 已 经 存在 的 关系 图 ， 
我 们 可 以 准确 地 发 现 新 用 户 的 关系 网 络 。 这 样 的 推荐 朋友 比 自己 去 选择 更 为 高 效 。 
PYMK 已 经 成 为 了 每 个 社交 网 站 的 必 备 部 分 。Facebook 不 仅 支 撑 了 自身 版 本 的 
PYMK ,他 们 还 监控 了 用 户 获 得 朋友 的 时 间 。 使 用 精密 的 跟踪 和 分 析 技 术 , 他 们 已 经 标 
识 了 让 一 个 用 户 长 期 参与 的 时 间 和 连接 数 。 通 过 学 习 达 到 信任 的 活动 的 层级 ,他 们 已 经 
将 网 站 设计 成 为 能 够 有 效 降低 新 人 加 一 定数 量 朋友 为 其 好 友 的 时 间 。 

类 似 地 ,Netflix 在 线 电影 完成 了 同样 的 任务 。 当 你 注册 时 ,他 们 强烈 推荐 你 添加 你 
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打算 观看 的 电影 。 他 们 已 经 发 现 一 旦 你 增加 超过 某 个 数量 的 电影 ,你 成 为 一 个 长 期 用 户 
的 概率 将 大 大 增加 。 借 助 这 个 数据 ,Netflix 可 以 构造 .测试 和 监测 产品 流 来 最 大 化 新 人 
转变 为 长 期 顾客 的 数量 。 他 们 简化 了 高 度 优 化 的 注册 /试用 服务 ,有效 利用 了 这 样 的 信息 
来 快速 和 高 效 地 黏合 客户 。 

Netflix、LinkedIn 和 Facebook 并 不 是 仅 有 的 使 用 用 户 数据 来 鼓励 客户 长 期 参与 的 
公司 。 如 Zynga, 它 不 仅仅 关注 游戏 ,还 会 常态 化 地 监测 用 户 身份 和 他 们 的 行为 ,生成 了 一 
个 不 可 思议 的 大 数据 。 通 过 分 析 用 户 在 一 段 时 间 内 在 一 个 游戏 中 的 交互 行为 ,他 们 已 经 识 
别 出 那 些 直 接 导 致 成 功 游戏 的 特征 。 基 于 用 户 和 其 他 用 户 的 交互 行为 的 数目 .前 n 天 内 用 
户 建造 的 房子 数目 ,在 前 mr 个 小 时 内 他 们 杀 死 了 的 怪物 个 数 等 ,他 们 便 可 以 知道 用 户 将 成 
为 长 期 会 员 的 概率 的 变化 。 他 们 找到 了 如 何 达 成 参与 的 挑战 的 关键 点 ,并 已 经 设计 出 产品 
来 鼓励 用 户 达 到 这 些 目标 。 通 过 持续 测试 和 监测 ,他们 优化 了 对 这 些 关 键 点 的 理解 。 

谷歌 和 亚马逊 在 使 用 A/B 测试 来 优化 网 页 的 展示 方面 是 先行 者 。 在 互联 网 发 展 历 
史上 ,设计 者 们 借助 直觉 和 本 能 来 完成 工作 。 这 没有 任何 错误 ,但 是 如 果 你 对 一 个 页 面 做 
出 修改 ,你 需要 确保 这 个 改动 是 有 效 的。 你 卖 出 更 多 的 产品 了 么 ”用户 需 要 多 久 才 能 发 
现 想 要 的 东西 ? 多 少 用 户 放 弃 并 转向 了 其 他 网 站 ? 这 些 问题 只 能 借助 实验 、 收 集 和 分 析 
数据 来 完成 ,这 些 是 数据 驱动 公司 的 第 二 特性 。 

雅虎 已 经 对 数据 科学 做 出 了 很 多 重要 的 贡献 。 在 看 到 谷歌 使 用 MapReduce 来 分 析 
海量 数据 后 ,他们 认识 到 了 自身 需要 同类 的 工具 来 完成 自己 的 事务 ,这 就 是 Hadoop。 现 
在 Hadoop 是 数据 科学 家 的 最 重要 的 工具 之 一 ,已 经 由 Cloudera、Hortonworks、MapR 等 
公司 商业 化 了 。 

数据 驱动 组 织 的 座右铭 之 一 是 :“If you can’t measure it, you can”t fix it( 如 果 你 无 
法 衡量 它 , 你 不 能 修复 它 )。” 这 个 态度 给 人 一 种 美妙 的 能 力 来 传达 这 种 价值 ,其 方式 包括 
如 下 几 种 。 

(1) 产生 和 收集 尽量 多 的 数据 。 不 管 你 是 做 商业 智能 还 是 构建 产品 ,如 果 不 能 收集 
数据 ,就 不 能 使 用 数据 。 

(2) 以 一 种 积极 和 省 时 的 方式 来 度量 你 的 产品 或 策略 是 否 成 功 ,如 果 你 不 去 度量 结 
果 , 你 又 如 何 得 知 呢 ? 

(3) 让 更 多 的 人 来 观察 数据 。 任 何 问题 可 能 只 是 因为 一 些 简单 的 原因 导致 。 更 多 有 
经 验 的 专家 可 以 从 不 同 的 角度 迅速 发 现 问题 出 在 哪儿 。 

(4) 刺激 对 数据 产生 变化 或 者 不 变 的 背后 原因 的 好 奇 心 。 在 一 个 数据 驱动 的 组 织 ， 
每 个 人 都 在 思考 数据 。 

如 果 试 着 以 上 面 的 心态 来 收集 数据 和 度量 你 能 做 到 的 每 件 事 ,思考 自己 收集 的 数据 
背后 的 意义 ,就 将 会 超前 于 大 多 数 只 是 嘴 上 说 说 的 公司 。 每 个 人 都 应 该 看 看 数据 。 


8.1.2 新 的 互联 网 环境 


过 去 几 年 间 , 网 络 在 很 多 方面 发 生 了 很 大 变化 ,其 中 最 显著 的 变化 就 是 网 络 变 得 越 来 
越 可 视 化 ,而 很 多 变化 都 是 因数 据 驱 动 而 发 生 的 。 


大 归 电 加 钢 化 


1. 关联 数据 和 更 语义 化 的 网 络 


数据 越 来 越 多 、 越 来 越 开放 , 网 络 也 因此 而 越 来 越 成 熟 , 数 据 仓 库 的 孤立 状态 被 打破 
时 ,数据 间 的 关联 也 就 越 来 越 强 。 今 天 ,无 论 我们 身 处 何 处 都 能 与 所 有 数据 相连 ,网 络 在 
我 们 眼前 变 得 更 语义 化 ( 即 更 有 意义 )。 

所 谓 “ 关 联 数据 ”描述 的 是 语义 网 对 于 片段 数据 、 信 息 和 知识 进行 揭示 、 分 享 和 关联 的 
实践 活动 。 当 以 往 不 能 关联 的 数据 现在 得 以 关联 ,不 仅 人 类 ,机 器 也 将 从 中 大 受 神 益 。 而 
这 通常 可 以 通过 如 统一 资源 标识 符 (URI) 以 及 资源 描述 框架 (Resource Description 
Framework,RDF) 等 资源 网 络 技术 来 实现 。 


2 采集 数据 更 趋 便利 


在 互联 网 时 代 之 前 ,很 多 大 型 企业 组 织 通过 被 称 为 抽取 、 转 化 和 加 载 (ETL ,Extract， 
Transform,Load) 的 程序 ,将 他 们 的 数据 在 不 同系 统 间 移 动 。 数 据 库 管 理 员 和 其 他 技术 
人 员 通 过 写 脚本 或 存储 过 程 使 这 个 程序 尽 可 能 自动 运行 。 其 核心 就 是 ,ETL 从 系统 A 抽 
取 数 据 , 转 换 或 变换 成 对 于 系统 B 来 说 友好 的 数据 格式 ,然后 将 数据 加 载 到 系统 B。 无 数 
公司 依靠 ETL 实现 着 各 种 不 同类 型 的 应 用 。 

现在 ,很 多 成 熟 的 企业 正在 逐渐 用 API 取代 ETL, 通 过 API 访问 数据 的 方式 根据 数 
据 使 用 和 采集 需要 而 被 优化 。 在 很 多 情况 下 ,与 ETL 相对 ,API 只 是 适合 处 理 更 大 量 的 
数据 ,移动 及 APP 经 济 意味 着 与 客户 交互 发 生 在 较 以 往 更 为 广阔 的 背景 环境 。 客 户 和 合 
作 伙 伴 通 过 大 量 APP 及 服务 与 企业 进行 交互 。 与 传统 系统 不 同 ,这 些 新 的 APP、 它 们 的 
交互 方式 以 及 它们 所 生成 的 数据 全 都 在 发 生 迅 速 变化 ,在 很 多 情况 下 ,企业 并 没有 “控制 ” 
数据 ,因此 ,传统 ETL 不 能 也 不 可 能 胜任 。 

API 使 得 企业 组 织 的 很 多 核心 业务 职能 得 以 完善 。 第 一 ,它们 较 ETL 的 方式 获取 数据 
更 快 .更 及 时 ;第 二 ,它们 使 得 企业 能 够 (更 ) 迅 速 地 判断 数据 质量 问题 ;第 三 ,基于 创新 、 问 题 
解决 以 及 协同 等 理念 ,开放 的 API 总 体 上 倾向 于 能 够 促进 更 开放 的 心态 。API 不 仅 有 益 于 
企业 组 织 ,也 有 益 于 它们 采集 数据 更 趋 便利 的 生态 系统 一 一 即 它们 的 客户 、 用 户 和 开发 者 。 


3. 借助 云 和 数据 中 心 更 高 效 


IT 的 历史 可 以 被 划分 为 三 个 时 代 ,. 即 主机 时 代 、 客 户 端 -服务 器 时 代 和 移动 - 云 时 代 。 
从 一 个 时 代 迈 进 另 一 个 时 代 并 非 发 生 在 且 夕 之 间 。 虽 然 趋势 已 不 可 阻挡 ,但 是 主机 对 于 
很 多 成 熟 企 业 组 织 及 其 运营 而 言 , 仍 必 不 可 少 。 然 而 ,在 可 预见 的 未 来 ,更 多 的 企业 将 脱 
离 IT 业务 。 一 个 恰当 的 例子 是 亚马逊 的 网 络 服务 所 取得 的 巨大 成 功 。 简 言 之 , 越 来 越 
多 的 企业 认识 到 他 们 不 能 像 亚马逊 、Rackspace、VMware、 微 软 Azure 及 其 他 公司 那样 将 
IT* 做 ”得 性 能 可 靠 还 物美 价 廉 。 云 时 代 的 基础 架构 即 服务 (TaaS) .平台 即 服务 (PaaS) ,使 
网 络 已 经 变 得 越 来 越 可 视 化 、 越 来 越 高 效 , 而 数据 也 越 来 越 趋 于 友好 。 


8.1.3 更 好 的 数据 工具 
现 有 的 商业 智能 解决 方案 以 及 统计 软件 包 等 方面 已 经 取得 了 很 大 进步 。 来 自 
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MicroStrategy\ 微 软 \SAS、.SPSS、Cognos 及 其 他 公司 的 企业 级 应 用 均 已 大 大 提升 他 们 产 
品 的 功能 。 但 是 ,除了 着 眼 于 成 熟 产 品 的 优化 改良 之 外 ,要 全 面 领会 我 们 所 看 到 的 创新 浪 
潮 , 必 须 超越 传统 BI 工具 来 看 。 云 计算 、SaaS、 开 放 数 据 、API、SDK 和 移动 化 等 的 崛起 ， 
已 经 共同 开辟 出 快速 部 署 和 少 硬件 甚至 零 硬件 需求 的 时 代 , 而 新 的 用 户 友 好 且 更 强劲 有 
力 的 数据 可 视 化 工具 也 已 经 出 现 , 它 们 共同 使 得 可 视 化 组 织 能 够 以 更 创新 、 更 吸引 人 的 方 
式 呈 现 数据 。 

今天 , 比 以 前 更 多 不 同 的 ` 强 有 力 的 .灵活 的 、 便 宜 的 可 视 化 工具 可 供 各 种 规模 的 不 同 
组 织 所 使 用 ,它们 也 包括 可 供 创业 公司 建立 企业 及 解决 方案 的 免费 网 络 服务 。 凭 借 上 述 
这 些 工具 、 服 务 和 市 场 ,员工 们 通过 他 们 的 数据 讲述 动人 的 故事 ,使 得 人 们 采取 行动 并 制 
定 更 好 的 商业 决策 。 而 且 ,借助 这 些 工具 ,员工 们 无 须 再 成 为 专门 的 技术 人 员 或 程序 员 才 
能 对 不 同类 型 和 不 同 来 源 的 数据 实现 即时 可 视 化 。 具 备 合适 的 工具 .可 视 化 组 织 正在 探 
索 隐 藏 的 以 及 新 呈现 的 趋势 ,可 以 便捷 地 与 数据 进行 交互 并 分 享 数据 。 他 们 能 够 判断 藏 
身 于 大 量 数 据 中 的 机 会 和 风险 ,他 们 做 到 这 些 而 无 须 IT 部 门 的 强力 参与 。 


8.1.4 更 透明 的 组 织 


事实 上 ,很 少 有 公司 真 的 喜欢 信息 透明 和 信息 共享 ,在 绝 大 多 数 办 公 环 境 中 ,信息 对 
企业 的 可 见 性 也 严格 限定 于 高 层 管理 者 通过 内 部 会 议 .E-mail\ 标 准 报表 、 财 务 报告 .仪表 
盘 以 及 关键 绩效 指标 (KPI 等 方式 来 实现 。 总 体 来 说 ,默认 为 只 在 “需要 知道 ”的 基础 之 
上 进行 共享 。 

但 是 ,认为 与 员工 ,合作 伙 伴 、 投 资 人 、 客 户 、 政 府 、 用 户 以 及 市 民 共享 数据 是 不 可 思议 
的 ,这 样 的 想法 已 经 一 去 不 复 返 了 。 现 在 更 常见 的 是 , 越 来 越 多 的 高 级 管理 层 及 公司 创始 
人 相信 透明 度 越 高 带 来 的 效益 越 显 著 。 数 据 透 明度 越 高 带 来 的 三 大 好 处 是 : 

(1) 企业 数据 质量 的 提升 ; 

(2) 避免 不 必要 的 冒险 ; 

(3) 支撑 全 组 织 层面 的 共享 和 协同 。 

越 来 越 多 的 先进 企业 组 织 认 识 到 透明 的 好 处 远 远 超过 其 付出 的 成 本 ,他 们 开始 拥抱 
新 的 默认 运作 模式 一 一 共享 数据 。 不 难 想象 ,不 远 的 将 来 ,协同 和 完全 透明 的 企业 将 能 够 
为 其 员工 一 一 也 可 能 甚至 是 其 合作 伙伴 和 客户 一 一 提供 了 解 企业 正在 发 生 什 么 情况 的 
360" 视 图 。 

即使 是 那些 拒绝 更 开放 办 公 环 境 的 组 织 ,因为 有 更 好 的 工具 和 信息 访问 方式 ,因此 不 
顾 行政 约束 :总 体 上 也 有 所 突破 并 受到 民主 化 影响 ,导致 保护 数据 隐私 在 今天 说 起 来 容易 
做 起 来 难 。 


8.1.5 竞争 新 态势 : 有 样 学 样 


每 当 一 家 成 功 的 上 市 公司 推出 一 项 新 的 产品 .服务 或 功能 时 , 它 的 竞争 对 手 会 格外 关 
注 。 情 况 一 直 都 是 如 此 。 通 常 ,遵照 相关 专利 、 知 识 产权 以 及 政府 法 令 等 ,推出 一 项 跟风 
的 有 形 产 品 可 能 需要 花费 数 年 之 久 , 而 一 项 数字 产品 或 功能 的 仿制 通常 只 需 数 天 或 数 周 ， 
尤其 是 当 一 家 公司 根本 不 在 乎 专利 索赔 时 。 
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实际 上 ,亚马逊 . 蔷 果 Facebook( 脸 书 ) 以 及 谷歌 这 四 家 巨头 公司 的 产品 及 服务 已 经 
无 处 不 在 ,而 每 家 公司 都 互相 关注 着 其 他 公司 的 一 举 一 动 ,他 们 也 绝 不 会 因为 “借用 ”其 他 
公司 的 功能 而 有 所 羞愧 。 这 种 竞争 心态 并 远 不 止 仅 局 限于 这 四 大 巨头 公司 , 它 已 经 草 延 
到 推 特 、 雅 虎 、 微 软 以 及 其 他 技术 手 楚 。 例 如 ,Groupon 在 最 初 的 短暂 成 功 后 所 发 生 的 事 
情 Groupon 大 获 成 功 之 后 ,很 快 ,亚马逊 、Facebook 和 谷歌 立马 添加 了 自己 的 类 似 每 
日 特惠 (Daily Deal)。 还 有 ,正如 在 导言 中 所 介绍 的 ,Facebook 于 2013 年 引进 推 特 的 类 
似 功能 ,如 视频 分 享 Instagram、 认 证 账号 以 及 话题 标签 等 。Facebook 的 12 亿 用 户 不 必 
非得 做 些 什么 来 获取 这 些 新 功能 ;它们 只 是 自动 出 现在 了 那里 。 

社交 网 络 能 够 迅速 推出 新 的 产品 功能 并 自动 更 新 ,而 软件 厂商 也 越 来 越 多 地 借助 网 
络 向 其 客户 迅速 推出 新 的 功能 。 例 如 ,Salesforce. com 等 公司 很 大 程度 因为 SaaS 的 普及 
而 使 其 市 值 升 至 数 十 亿美 元 。 如 果 Tableau 最 新 发 布 的 产品 包含 了 一 个 新 的 流行 功能 ， 
其 他 厂商 通常 也 会 一 拥 而 上 迅速 加 以 模仿 ,并 呈现 在 其 用 户 面前 。 现 在 软件 厂商 们 如 果 
希望 他 们 的 客户 升级 版 本 并 使 用 新 的 功能 ,已 经 不 再 需要 等 待产 品 的 下 一 版 发 布 。 


8.1.6 元 数据 和 源 数 据 


所 谓 元 数据 (MetaData) 是 描述 数据 及 其 环境 的 数据 , 它 是 描述 数据 属性 的 信息 ,用 
来 支持 如 指示 存储 位 置 .历史 数据 资源 查找 文件 记录 等 功能 。 换 名 话说 ,元 数据 是 关于 
数据 仓库 的 数据 , 指 在 数据 仓库 建设 过 程 中 所 产生 的 有 关 数 据 源 定义 .目标 定义 、 转 换 规 
则 等 相关 的 关键 数据 。 同 时 元 数据 还 包含 关于 数据 含义 的 商业 信息 ,所 有 这 些 信息 都 应 
当 妥 善 保存 ,并 很 好 地 管理 ,为 数据 仓库 的 发 展 和 使 用 提供 方便 (图 8-3)。 
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以 安全 部 门 获 取 的 通信 信息 为 例 , 通 信 信 息 通常 包括 通信 内 容 , 而 所 谓 元 数据 ,是 指 
通信 信息 所 有 的 电话 号 码 和 呼叫 时 长 。 在 这 里 ,有 效 的 数据 可 视 化 通常 不 仅 包括 通信 信 
息 ， 还 包括 元 数据 。 = A a 在 什么 


的 信息 。 
82 典型 的 可 视 化 组 织 一 一 Netfix 


Netflix 是 美国 的 一 家 流 媒体 视频 服务 提供 商 , 主 要 从 事 在 线 影 片 租 赁 业务 (图 8-4) 。 
公司 能 够 提供 超大 数量 的 DVD 供 顾客 快速 方便 地 挑选 影片 并 免费 递送 。Netflix 大 奖 赛 
从 2006 年 10 月 份 开始 ,公开 了 大 约 1 亿 个 1 一 5 的 匿名 影片 评级 ,数据 集 仅 包含 了 影片 
名 称 .评价 星 级 和 评级 日 期 ,没有 任何 文本 评价 的 内 容 , 比 赛 要求 参 赛 者 预测 Netflix 的 客 
户 分 别 喜欢 什么 影片 。2015 年 8 月 4 日 ,Netflix 宣布 于 9 月 2 日 正式 进入 日 本 市 场 。 
2016 年 1 月 18 日 ,Netflix 宣布 计划 在 中 国 推出 流 媒 体 视 频 服务 。Netflix 已 经 成 为 世界 
级 最 大 的 大 数据 公司 之 一 。 
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图 8-4 Netflix 


8.2.1 创办 Netflix 


1997 年 Reed Hastings 和 Marc Randolph 创办 了 Netflix, 最 初 只 是 开展 通过 邮递 租 
借 DVD 的 业务 。 那 之 前 ,要 租借 视频 必须 亲自 去 连锁 实体 店 , 左 淘 右 淘 , 希 望 在 现 有 存 
货 中 有 所 斩获 。 很 多 客户 找 不 到 他 们 想 要 的 片子 。 当 他 们 找到 后 :又 经 常 因 迟 还 视频 而 
交 滞 纳 金 。2000 年 ,Blockbuster 实体 店 收 到 了 将 近 8 亿美 元 的 滞纳金 . 占 到 其 全 部 收入 
的 16%。 

Hastings 和 Randolph 相信 ,视频 租借 模式 已 经 成 熟 并 走向 衰落 。 更 重要 的 是 ,他 们 
已 经 构思 出 更 好 的 计划 。Netflix 提供 免费 邮递、 不 收 澡 纳 费 以 及 大 量 可 供 选 择 的 片 名 ， 





格 提 供 。 于 是 ,“ 红 包 ” 邮 件 开始 到 处 出 现 。 
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即使 当 Netflix 已 经 开始 启动 ,视频 租赁 实体 店 作为 当时 的 老牌 DVD 租赁 公司 ,可 
以 想象 得 到 ,他 们 对 于 通过 邮递 租 DVD 的 想法 唆 之 以 鼻 。 这 在 当时 简直 就 是 “创新 者 两 
难 境地 ”的 经 典 案例 。 传 统 的 想法 认为 ,客户 不 可 能 吃 Netflix 这 一 套 模式 ,他们 不 会 想 要 
花 上 几 天 工夫 等 着 要 看 的 视频 通过 邮 弟 到达。 还 有 ,邮件 会 丢失 、 邮 递 会 增加 成 本 .DVD 
会 损坏 、 客 户 会 偷窃 ,总 之 ,通过 邮递 租 DVD 绝对 行 不 通 。 

事实 的 结果 是 ,那些 曾经 著名 的 视频 租赁 实体 店 到 如 今 不 是 倒闭 就 是 宣布 破产 ,都 已 
经 关门 大 吉 。 


8.2.2 Netflix 自我 颠覆 


虽然 Netflix 颠覆 了 那些 传统 的 连锁 视频 租赁 实体 店 企业 ,同时 它 也 黄 定 了 颠覆 自己 
的 基石 一 一 尤其 对 其 所 提供 的 通过 邮递 租赁 的 DVD 业务 而 言 。 用 硅谷 的 流行 行 话 来 
说 ,这 家 公司 已 经 在 走 下 坡 路 了 。Netflix 于 2007 年 开始 流 视 频 业 务 。 

随 着 实物 DVD 向 流 媒体 的 转变 ,Netflix 管理 层 意识 到 其 客户 生成 了 多 得 令 人 难以 
置信 的 数据 一 一 还 不 仅仅 是 有 关 谁 在 看 什么 节目 的 数据 。 据 说 ,Netflix 一 直 深 请 数 据 的 
重要 性 , 除 所 看 节目 之 外 ,现在 它 还 在 收集 订户 尽 可 能 多 的 信息 ,包括 以 下 几 个 方面 。 

(1) 通过 地 理 定位 数据 ,发 现 客户 在 哪里 观看 视频 ; 

(2) 它 的 客户 通过 什么 终端 在 看 视频 ; 

(3) 客户 什么 时 候 观 看 视频 一 一 星期 几 和 具体 时 间 ; 

(4) 在 有 限 范围 内 , 当 客 户 观 看 视频 时 正在 做 什么 (Netflix 跟踪 客户 每 次 看 电影 或 
电视 节目 的 后 退 、 快 进 和 和 暂停 行为 )。 

但 是 Netflix 并 不 满足 于 此 , 它 也 从 诸如 Nielsen 等 第 三 方 购买 元 数据 ,从 Facebook 、 
推 特 及 其 他 网 站 采集 社交 媒体 数据 。 对 于 Netflix 来 说 ,其 最 独特 的 做 法 就 是 采集 数据 。 
一 篇 网 络 文章 写 道 ( 以 下 是 Netflix 一 些 激 动人 心 的 统计 数据 (如 今 已 经 超过 甚至 更 多 ) ) : 

(1) 超过 2500 万 用 户 ; 

(2) 每 天 3000 万 次 播放 ; 

(3) 仅 2011 年 最 后 3 个 月 期 间 所 产生 的 流 视频 超过 20 亿 小 时 ; 

(4) 每 天 400 万 个 评分 ; 

(5) 每 天 300 万 次 搜索 。 

Netflix 的 基础 架构 是 依照 不 同 规模 、 速 度 、 大 数据 和 复杂 算法 等 进行 建设 的 ,因此 ， 
即使 不 是 实时 ,Netflix 也 能 跟 上 数据 的 更 新 速度 ,快速 进行 统计 汇总 。 

从 结果 来 看 ,Netflix 的 成 长 可 谓 疾 速 (无论 从 其 股价 还 是 订户 数 来 看 ) , 它 已 经 区 别 
流 视频 和 实物 DVD 从 而 有 效 拆 分 为 两 个 业务 。Netflix 流 服务 的 订购 用 户 已 经 是 其 通过 
邮递 租赁 DVD 业务 用 户 的 三 倍 , 其 中 70% 的 订户 所 观看 的 是 电视 。 总 之 ,3300 万 订户 
每 月 观看 Netflix 内 容 流 时 间 共 达 10 亿 小 时 。 令 人 震惊 的 是 ,现在 Netflix 的 流 业务 占 到 
北美 全 部 家 庭 夜晚 所 产生 全 部 互联 网 流量 的 大 概 1/3。 

若 没有 足够 有 力 的 基础 平台 和 工具 来 处 理 数据 洪流 并 将 数据 可 视 化 :Netflix 也 就 不 
可 能 取得 今天 的 成 功 。 可 视 化 组 织 认识 到 ,对 一 种 新 商业 模式 的 采纳 ,更 像 是 一 个 方程 式 
的 改变 ,这 么 一 种 “转变 ”几乎 总 是 需要 采用 新 的 更 强 有 力 的 数据 管理 工具 。 
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8.2.3 大 数据 整合 战略 的 构成 


2012 年 12 月 25 日 圣诞 节 , 当 Netflix 流 业 务 停止 工作 时 ,很 多 美国 人 在 推 特 上 发 布 
了 这 件 事 。 微 博 业 务 因 直 fail 标签 而 暴 增 ( 看 看 那天 的 一 条 常见 推 特 : 现在 我 不 得 不 跟 家 
人 谈话 ,可 是 我 想 看 XX 节目 。 劳 驾 , Netflix!)。 然 而 ,实际 上 ,这 个 问题 跟 Netflix 一 点 
关系 都 没有 。 长 话 短 说 ,这 个 事故 ,是 一 位 亚马逊 员工 在 亚马逊 网 络 服务 的 流量 配置 系统 
不 小 心 删除 了 关键 数据 ,于 是 ,混乱 接 中 而 至 。 

这 个 小 故障 及 其 所 引发 的 后 果 表 明了 Netflix 依赖 AWS( 亚 马 逊 网 络 服务 ) 的 程度 之 
深 。 若 没有 AWS,Netflix 也 就 不 能 提供 如 此 多 流 内 容 到 虚拟 的 或 现实 的 世界 。 实 际 上 ， 
Netflix 很 长 一 段 时 间 以 来 已 经 是 全 球 最 大 的 AWS 客户 , 据 报道 , 它 使 用 这 项 服务 的 量 已 
经 超过 亚马逊 本 身 ! 正如 Ashlee Vance 在 ( 彭 博 商业 周刊 》 上 所 写 : 

Netflix 是 全 球 最 大 的 云 计 算 用 户 之 一 ,这 也 就 意味 着 它 在 别人 的 设备 上 运行 着 一 个 
数据 中 心 。 这 家 公司 按 小 时 租用 服务 器 和 存储 设备 .并且 其 计算 能 力 全 部 从 Amazon. 
com 的 云 计算 部 门 租用 其 提供 的 亚马逊 网 络 服务 ,这 个 部 门 自己 也 运作 视频 流 业 务 并 与 
Netflix 形成 竞争 。 

亚马逊 和 Netflix 是 一 对 典型 的 “ 友 敌 ”, 他 们 既 互 为 合作 伙伴 又 互 为 竞争 对 手 。 但 是 
Netflix 也 不 仅仅 使 用 AWS 提供 的 数据 管理 能 力 , 相 反 , 正 如 Vance 所 指出 的 “Netflix 
已 经 建立 了 一 系列 复杂 工具 使 其 软件 能 够 在 亚马逊 的 云 上 运行 良好 ”。 确 切 地 说 ,亚马逊 
也 认识 到 这 些 应 用 的 价值 , 它 模 仿 很 多 Netfilix 的 先进 做 法 并 将 其 向 其 他 商业 客户 推广 。 

虽然 很 多 技术 都 是 专用 的 ,但 Netflix 还 是 定制 了 大 量 开源 软件 支撑 其 业务 的 关键 部 
分 运作 。 从 Netflix 的 基础 技术 设施 来 看 ,开源 软件 扮演 着 的 重要 性 仅 次 于 AWS 的 角 
色 。 银 幕 背 后 ,Netflix 与 Hadoop、Hive 和 Pig 一 样 在 开源 大 数据 中 处 于 举足轻重 的 
地 位 。 

每 个 新 的 应 用 和 改善 都 使 Netflix 更 接近 其 最 终 目标 ,换言之 ,Reed Hastings 并 不 满 
足 于 仅仅 对 他 的 客户 目前 正在 做 什么 一 一 消费 大 量 的 内 容 做 出 判断 。 跟 很 多 企业 一 
样 ,Netflix 也 在 寻求 着 做 出 准确 预言 的 能 力 ,与 很 多 企业 不 同 ,Netflix 确实 拥有 基础 平 
台 和 数据 来 实现 其 想法 。 

Netflix 采集 并 分 析 大 量 数据 .这 直接 强化 了 其 对 于 客户 下 一 步 想 要 观看 什么 进行 预 
测 的 能 力 。 公 司 的 高 级 数据 科学 家 Mohammad Sabah 说 :“ 一 旦 摄制 人 员 名 单 开 始 滚 
动 ,意味 着 (公司 ) 已 在 采集 JPEG 和 注释 数据 ”更 重要 的 是 , Netflix 还 会 考虑 其 他 没 那 
么 明显 的 数据 源 。 不 久 的 将 来 ,Netflix 可 能 基于 诸如 电影 声音 甚至 风景 等 因素 来 进行 推 
荐 。 这 些 电 影 或 节目 的 元 数据 能 为 Netflix 提供 更 深入 了 解 其 客户 想 看 什么 的 更 有 价值 
的 洞察 。 所 有 这 些 洞察 都 传递 到 其 对 大 量 内 容 采 集 的 决策 中 。 


8.2.4 Netflix 文化 灌输 


在 诸如 Netflix 数据 驱动 的 环境 中 ,数据 可 视 化 扮演 着 重要 角色 。 根 据 其 企业 博客 ， 
Netflix 将 数据 可 视 化 视 为 最 重要 的 元 素 。 很 多 Netflix 的 主 系统 都 包含 数据 可 视 化 这 一 
重要 元 素 。 还 有 ,与 其 他 可 视 化 组 织 一 样 ,Netflix 是 以 常规 ,持续 而 非 临 时 、 偶 尔 的 方式 
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在 使 用 着 数据 可 视 化 工具 。 即 Netflix 员工 常规 性 地 通过 观察 现 有 的 数据 可 视 化 工具 改 
进 算法 .获得 新 洞察 并 解决 环 手 的 业务 问题 。 

Jeff Magnusson 在 公司 担任 数据 平台 架构 经 理 一 职 。 在 2013 年 6 月 27 日 的 
Hadoop 高 峰会 上 .他 提供 了 一 扇 难 得 的 窗户 ,使 我 们 得 以 一 罕 Netflix 的 大 数据 理念 。 
Magnusson 与 他 的 同事 一 一 一 位 软件 工程 师 Charles Smith 一 起 进行 演示 。 演 讲 的 题目 
为 :“ 通 过 Netflix Hadoop 工具 包 观 看 Pig 如 何 飞 翔 .” 在 这 场 演讲 中 ,Magnusson 和 
Smith 列举 了 Netliix 数据 理念 的 三 条 关键 原则 : 

(1) 数据 应 该 可 采集 , 且 易 于 为 人 们 所 发 掘 及 处 理 ; 

(2) 无 论 你 的 数据 集 大 还 是 小 ,要 能 将 其 可 视 化 并 使 其 更 易于 解释 ; 

(3) 数据 发 掘 所 花 时 间 越 长 ,其 价值 变 得 越 小 。 

这 些 原则 解释 了 Netflix 之 所 以 成 为 可 视 化 组 织 典范 的 根本 原因 。 其 商业 核心 一 定 
建立 在 一 些 全 球 最 复杂 的 大 数据 工具 之 上 ,而 其 中 肯定 不 乏 数 据 可 视 化 应 用 。 立 足 一 个 
更 高 层面 来 说 ,这 些 工具 为 两 个 关键 团体 的 利益 服务 : 一 个 是 客户 , 另 一 个 是 技术 专家 。 
然而 ,还 需 强调 的 是 ,为 以 上 两 个 团体 的 利益 服务 ,也 意味 着 最 终 使 包括 管理 者 、 投 资 者 、 
非 技术 员 员 工 及 其 他 在 内 的 所 有 人 受益 。 


1. 客户 洞察 


Netflix 会 进行 不 同 电视 剧 受 众 构成 的 彩色 详细 图 解 分 析 ,准确 地 对 这 些 差 异 进行 定 
量化 。 更 重要 的 是 ,Netflix 还 能 发 现 它们 是 否 对 订户 的 观看 习惯 .推荐 .评分 和 偏好 存在 
显著 的 影响 。 

在 Netflix, 对 比 相 似 图 片 的 色 度 并 非 是 由 空闲 时 间 的 员工 所 开展 的 一 次 性 实验 ,而 
是 一 项 常规 性 工作 。Netflix 认识 到 在 这 些 发 现 中 存在 巨大 的 潜在 价值 。 说 到 底 , 这 家 公 
司 已 经 建立 了 能 够 揭示 这 一 价值 的 相关 工具 。 在 Hadoop 高 峰会 上 , Magnusson 和 
Smith 讲 到 了 标题 .颜色 和 受众 的 有 关 数 据 如 何在 各 方面 助力 Netflix。 例 如 ,色彩 分 析 使 
得 这 家 公司 能 够 测算 与 客户 之 间 的 距离 。 用 Smith 的 话 来 说 , 即 可 以 判定 “每 个 客户 在 最 
近 N 天 216 向 量 的 平均 标题 颜色 ”。 

有 多 少 家 公司 能 够 对 自己 的 客户 了 解 到 这 种 程度 ? 可 以 大 胆 猜测 ,能 做 到 这 样 的 公 
司 很 少 。 即 使 对 其 客户 只 是 了 解 到 Netflix 所 了 解 程度 的 一 半 , 相 信 很 多 公司 也 会 很 
高 兴 。 

Netflix 是 如 何 做 到 的 ? 通过 大 数据 和 数据 可 视 化 , Netflix 将 其 令 人 难以 置信 的 个 
性 化 无 颖 落实 到 每 个 客户 身上 。 同 时 ,Netflix 还 能 很 方便 地 对 有 关 客 户 、 风 格 、 观 看 习 
惯 、 趋 势 及 其 他 任何 方面 进行 数据 汇总 。 因 为 具备 这 些 数 据 , Netflix 能 够 回答 大 多 数 公 
司 不 能 甚至 问 不 出 来 的 问题 。 有 关 颜 色 和 受众 覆盖 方面 ,包括 以 下 问题 。 

(1) 特定 的 客户 群 存在 向 特定 受众 覆盖 类 型 变化 的 趋势 吗 ? 如 果 是 这 样 , 个 性 化 推 
荐 是 否 应 该 自动 变化 ? 

(2) 哪 种 标题 颜色 吸引 哪些 客户 ? 

(3) 一 部 原创 剧 是 否 存在 理想 的 受众 覆盖 ? 或 者 说 ,是 否 需 要 将 不 同 的 颜色 用 于 不 
同 的 受众 ? 
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简单 来 说 ,Netflix 能 够 基于 优秀 数据 数据 可 视 化 和 对 两 者 重要 性 的 文化 共识 ,提出 
更 好 的 问题 并 做 出 更 好 的 决策 。 


2 更 好 的 技术 性 和 网 络 化 诊断 


虽然 Netflix 已 经 创建 了 一 些 全 球 最 强大 的 大 数据 工具 ,但 它 并 没有 止步 于 此 ; 它 还 
在 不 断 开发 出 新 的 所 需 工 具 。 一 次 ,由 于 特定 脚本 的 原因 ,导致 Apache Pig? 原始 代码 理 
解 起 来 很 困难 ,Netflix 通过 一 个 名 为 Lipstick 的 可 视 化 工具 解决 了 这 个 问题 ,通过 这 个 
自己 开发 的 程序 将 代码 转换 为 有 向 无 环 图 (DAG), 这 使 得 在 大 型 项 目 中 更 容易 发 现 错 
误 。 而 图 表 方式 也 使 得 开发 人 员 能 够 对 正在 执行 的 MapReduce 工作 进行 察看 。 

这 就 是 可 视 化 组 织 的 基本 真相 。 简 单 来 说 ,即使 是 技术 人 员 也 能 从 可 交互 的 数据 可 
视 化 中 获 益 。 通 过 Lipstick ,负责 建立 和 维护 企业 平台 的 人 员 可 以 更 好 地 理解 以 下 内 容 : 

(1) 哪些 工作 已 经 安装 ; 

(2) 用 户 能 否 看 到 他 们 想 要 的 数据 ; 

(3) 为 什么 一 项 工作 没 执行 成 功 ; 

(4) 新 出 现 的 趋势 。 

发 现 新 趋势 的 能 力 不 容 小 遍 ,尤其 是 对 于 Netflix 这 样 拥 有 3000 万 订户 的 公司 而 言 。 
Netflix 不 是 如 AT&T 这 样 的 企业 , 它 不 能 强迫 客户 签订 苛刻 的 ,高 惩罚 性 的 两 年 合约 ， 
Netflix 的 订户 是 按 月 支付 的 。Netflix 通过 关键 元 素 ( 变 量 ) 的 数值 能 够 实时 判断 其 订户 
的 使 用 模式 。 

组 庸 置疑 ,Netflix 能 够 实时 添加 订户 所 在 位 置 、 人 口 统计 及 设备 等 有 关 的 新 增 变 量 。 
除 需 理解 客户 偏好 和 观看 习惯 之 外 ,Netflix 的 人 员 还 需 与 数据 进行 交互 以 对 系统 问题 进 
行 调查 。 

综 上 所 述 ,关于 Netflix 对 其 订户 所 有 层面 的 基础 信息 的 了 解 程度 ,相信 你 已 开始 有 
所 感受 。 例 如 ,Netflix 知道 它 的 哪些 客户 在 哪里 通过 什么 设备 在 看 哪些 节目 ,甚至 还 知 
道 其 中 的 原因 。 当 然 , 单 是 通过 数据 可 视 化 并 不 能 了 解 到 这 个 层面 的 知识 。 然 而 ,假如 不 
是 拥有 强大 的 数据 可 视 化 工具 ,我 们 很 难 想象 Netflix 能 发 展 成 我 们 现在 看 到 的 这 样 一 一 
也 很 难 认识 到 这 些 工 具 对 于 其 业务 运营 至 关 重 要 的 作用 。Netflix 一 直 保 持 着 前 进步 伐 ， 
不 断 创 建新 工具 供 客户 使 用 。 


83 创业 公司 的 数据 可 视 化 


像 Netflix 这 样 的 巨头 公司 确实 能 力 非 凡 ,但 是 ,一 家 单独 的 创业 公司 是 如 何 拥抱 可 
视 化 组 织 的 理念 ,如 何 将 创业 数据 可 视 化 做 到 很 好 呢 ? 事实 证 明 , 即 使 收益 颇 低 、 员 工 数 


@ Apache Pig 是 对 很 大 的 数据 集 进行 分 析 的 平台 , 它 包括 表达 数据 分 析 程 序 的 高 级 语言 以 及 评估 这 些 程序 的 
相应 架构 。Pig 程序 最 突出 的 特点 是 ,它们 的 架构 使 其 能 够 适应 大 量 并 行 运作 。 
@@ ”MapReduce 是 利用 并 行 分 布 式 算法 集群 处 理 大 型 数据 集 的 编程 模型 。 
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量 很 少 , 一 家 公司 对 实现 数据 可 视 化 的 认识 和 心态 ,至 少 在 某 种 程度 上 ,可 以 战胜 其 资金 
和 人 力 资源 的 缺乏 。 


8.3.1 Wedgies 的 创业 


由 Jacobson 和 Porter Haney 于 2012 年 创建 的 Wedgies 公司 ,本 部 在 内 华 达 州 拉 斯 
维 加 斯 市 ,是 一 家 5 人 创业 公司 ,其 产品 让 用 户 通 过 推 特 能 够 很 容易 地 创建 简单 调查 。 这 
家 公司 的 使 命 就 是 帮助 世界 消除 烦人 而 笨拙 的 调查 。Haney 这 样 描述 公司 的 起 始 : 
“Jimmy 和 我 坐 在 我 的 餐桌 旁 , 想 要 为 我 们 周围 的 人 创建 一 些 有 用 的 东西 。 我 们 看 到 人 
们 在 推 特 和 Facebook 上 询问 大 量 的 问题 ,然后 回收 开放 式 的 答复 。 我 们 决定 创建 
Wedgies 实时 对 这 些 答复 进行 汇总 并 可 视 化 呈现 。” 

技术 的 世界 里 几乎 不 存在 新 手 , Haney 和 Jacobson 在 启动 Wedgies 之 前 就 知道 他 们 
想 要 什么 。 如 前 所 说 ,技术 创业 成 本 自 2000 年 以 来 已 经 成 数量 级 下 降 , 每 个 月 花费 成 千 
上 万 美元 在 平台 架构 (如 服务 器 ,数据库 及 其 他 管理 所 有 东西 的 软件 等 ) 的 日 子 已 经 一 去 
不 复 返 。 “现在 大 多 数 网 站 和 移动 APP 在 同样 供给 Dropbox( 一 款 免费 网 络 文件 同步 工 
具 ) 动 力 的 云 服 务 上 运行 ”",Jacobson 说 ,“ 一 经 正确 配置 ,运行 1 台 和 100 台 服 务 器 的 区 别 
只 是 指令 及 月 度 计 费 的 档次 不 同 而 已 。 这 使 得 我 们 可 以 聚焦 于 创业 的 生命 线 , 即 我 们 的 
客户 身上 。” 

就 像 今天 很 多 的 消费 者 服务 一 样 , Wedgies 已 经 拥抱 免费 增值 模式 。 任 何人 只 需 单 
击 几 下 就 可 免费 获取 简 版 Wedgies。 免 费 选项 包括 以 下 内 容 。 

(1) 品牌 定制 化 : 客户 能 够 改变 图 片 和 色彩 ,以 更 好 地 反映 个 体 品牌 特色 。 

(2) 更 完善 的 分 享 : 客户 可 以 在 其 自身 网 站 进行 投票 ,而 不 再 局 限于 Wedgies. com 
网 站 。 

(3) 编辑 : 客户 可 以 创建 5 个 选项 以 上 以 及 多 项 选择 问卷 。 

(4) 欺诈 防范 : Wedgies 利用 算法 对 重复 投票 进行 监测 ,保障 客户 可 以 采集 到 质量 更 
好 的 数据 。 


8.3.2 用 户 体 验 至 高 无 上 


网 站 成 熟化 的 结果 之 一 就 是 设计 和 用 户 体验 (Use Experience, UX, 指 当 使 用 某 产 
品 、 系 统 或 服务 时 某 个 人 的 感觉 ) 已 经 成 为 白热化 话题 。Web 1.0 的 时 候 , 人 们 访问 网 站 
的 原因 只 是 因 其 新 奇 或 没有 其 他 可 替代 物 ,然而 ,这 种 日 子 已 经 一 去 不 复 返 。 过 去 几 年 
间 ,我们 已 经 看 到 围绕 消费 者 导向 的 网 站 、 服 务 、 设 备 、 内 容 和 App 等 的 真正 季风 正在 刮 
起 ,而 且 我 们 还 没 看 到 这 阵风 的 尽头 。 未 认识 到 提供 用 户 友 好 、 社 交 性 以 及 可 视 化 等 用 户 
体验 重要 性 的 企业 很 少见 一 一 而 Wedgies 也 并 非特 例 。 在 这 个 行家 里 手 云集 的 环境 里 ， 
差异 化 是 必需 的 ,而 优秀 的 UX 则 成 了 潜在 的 终极 手段 。 

除 其 作为 首要 重要 因素 之 外 ,UX 在 很 大 程度 上 还 是 一 项 保健 因素 。 请 听 我 解释 。 
今天 昌 然 并 没有 什么 可 以 保证 一 定 成 功 ,但 更 为 确定 的 是 : 忽视 或 错失 UX 几乎 注定 会 
导致 失败 。 换 言 之 ,即使 Haney 和 Jacobson 创建 了 世界 上 最 了 不 起 的 UX, 不 利 的 变数 
依然 很 大 。 虽 然 一 些 创业 公司 看 起 来 具备 全 部 的 正确 要 素 .如 可 靠 的 商业 模式 、 经 验 丰 富 
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的 领导 层 .战略 性 的 合作 伙伴 关系 等 :但 是 ,依然 不 断 有 大 量 创业 公司 失败 了 。 

再 了 不 起 的 设计 也 改变 不 了 一 个 现实 一 一 我 们 的 世界 十 分 拥挤 , 即 他 们 称 其 为 大 数 
据 的 一 个 原因 。 对 于 任何 一 个 人 来 说 ,关于 任何 话题 的 无 限 内 容 只 需 一 部 智能 手机 , 即 可 
尽 在 把 握 。 没 有 人 愿意 看 乏味 的 柱状 图 ,更 不 要 说 将 它们 分 享 给 他 人 。 对 于 Wedgies 来 
说 ,要 获得 任何 牵引 力 , 它 不 仅 需要 易于 使 用 而 且 必须 怡 人 耳目 。Wedgies 设计 得 不 仅 让 
人 耳目 一 新 ,而 且 让 创建 和 分 享 简单 到 毫 不 费 脑 。 只 需 一 次 单 击 , Wedgies 用 户 就 可 以 创 
建 调查 ,下 载 高 质量 PNG 格式 的 可 视 化 ,并 且 很 便捷 地 与 朋友 及 在 他 们 的 社交 网 络 上 进 
行 分 享 。 用 户 还 可 以 通过 多 种 方式 快速 地 利用 他 们 的 调查 结果 。 

创建 公司 之 前 ,Haney 和 Jacobson 已 经 做 了 相关 研究 。 他 们 知道 人 类 的 思维 习惯 于 
识别 和 认 知 人 脸 。Jacobson 说 :“ 在 可 视 化 中 通过 利用 人 脸 能 够 帮助 我 们 迅速 聚焦 于 有 
趣 的 趋势 之 上 。”Wedgies 在 其 可 视 化 中 根据 两 种 标准 对 人 脸 进行 分 类 。 首 先 , 用 户 在 调 
查 中 选 了 哪个 选项 ,其 次 ,所 有 人 都 一 起 扎堆 投票 吗 ? Wedgies 将 后 者 用 户 群 称 为 敌 友 
(Frenemies) ,原因 是 ,他 们 不 可 能 总 是 意见 一 致 ,但 他 们 会 对 同类 调查 进行 投票 ,而 且 很 
显然 ,他 们 会 互相 分 享 调查 。 

通过 利用 人 脸 和 地 理 信 息 , Wedgies 发 现 了 一 些 有 趣 的 事情 : 它 的 用 户 花 费 更 多 的 
时 间 来 观察 他 们 面前 的 数据 。 这 样 一 来 ,网 站 黏 性 上 升 ,并 且 激 励 其 他 用 户 继续 使 用 
Wedgies 一 一 在 这 个 拥挤 的 世界 里 ,这 可 并 非 易 事 , 因 为 注意 力 已 经 成 为 一 种 珍贵 的 
财富 。 

创建 一 个 Wedgie 实在 好 玩 , 它 可 以 满足 人 们 的 好 奇 心 ,但 更 多 的 人 是 出 于 职业 的 目 
的 而 利用 Wedgies 来 采集 有 价值 的 信息 。 例 如 ,2013 年 7 月 28 日 《今日 美国 》 记 者 Jeff 
Gluck 正在 报道 印第安 纳 波 利 斯 赛 道 的 NASCAR 赛事 , 跟 大 多 数 比赛 不 同 , 这 次 比赛 在 
泥土 路 上 进行 。Gluck 创建 了 一 个 Wedgie 询问 他 的 关注 者 们 是 否 喜 欢 新 的 路 面 。 图 8-5 
展示 的 就 是 这 个 Wedgie。 





Jeff Gluck wants to know 
Did you enjoy tonight's NASCAR race 
on dirt? 
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图 8-5 对 NASCAR 赛事 的 调查 
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在 Gluck 创建 有 关 NASCAR 的 Wedgie 不 久 后 ,访问 暴涨 ,15 分 钟 之 内 ,他 收 到 的 响 
应 超过 1400 个 。 在 赛 后 新 闻 发 布 会 上 .Gluck 还 利用 这 个 方式 来 确定 向 赛车 手提 什么 问 
题 。 实 际 上 ,Wedgie 使 得 他 能 够 采集 数据 并 将 他 的 工作 做 得 更 好 。 


8.3.3 应 用 开源 工具 


虽然 在 规模 上 几乎 不 能 跟 Netflix 相 比 ,但 是 Wedgies 与 流 视频 巨头 具有 的 共同 特征 
远 超人 们 的 想象 。 每 个 企业 都 以 类 似 的 概念 方式 建立 了 自身 的 基础 技术 平台 。 就 
Wedgies 方面 而 言 , 一 个 单独 的 Wedgie 所 产生 的 响应 是 10 个 或 1000 万 个 都 无 所 谓 。 跟 
Netflix 一 样 , Wedgies 的 设计 立足 更 长 远 , 它 不 需要 定期 进行 代码 维护 。 

让 我 们 来 看 看 Wedgies 利用 不 同 数据 可 视 工 具 处 理 其 运营 的 一 些 具体 方式 。 

Jscobson 和 Haney 是 免费 开源 工具 的 精明 用 户 。 这 家 公司 借助 Google Analytics 
及 其 内 置 仪表 盘 。 无 数 个 人 和 企业 都 在 利用 Google Analytics 以 了 解 它们 的 流量 来 源 、 
最 受 欢迎 的 网 页 以 及 人 口 统计 构成 等 诸如 此 类 的 信息 。 它 更 适合 目前 Wedgies 的 商业 
需求 。 至 于 后 者 ,Jacobson 利用 的 是 D3 与 在 附录 中 列 出 的 一 些 开源 的 图 表 库 。 

Wedgies 的 数据 可 视 化 工具 让 其 员工 能 够 了 解 传统 表格 数据 中 不 容易 出 现 的 问题 和 
趋势 ,并 能 够 给 出 所 需 的 答复 。 用 Jacobson 的 话说 ,“ 社 交 数 据 就 是 这 方面 的 最 好 例子 。 
虽然 能 很 容易 看 到 某 人 有 多 少 推 特 粉丝 ,但 这 类 基本 数据 不 能 告诉 我 们 那 人 粉丝 的 参与 
程度 如 何 。 即 使 是 推 特 的 转发 数量 也 说 明 不 了 什么 。” 换 言 之 , 没 办 法 真正 知道 转发 推 特 
的 人 是 否 阅 读 了 相关 内 容 或 参与 的 方式 是 否 有 意义 。“ 看 见 一 个 行业 领域 专家 通过 
Wedgie 较 一 个 在 推 特 上 拥有 成 千 上 万 粉丝 的 品牌 能 获得 更 好 的 参与 度 , 实 属 平 常 。” 

当 Gluck 的 NASCAR 调查 产生 反响 时 ,幕后 的 Jacobson 也 能 看 到 正在 发 生 的 事情 
并 几 次 做 出 反应 。 他 查询 Wedgies 的 内 部 数据 可 视 化 工具 以 及 Google Analytics 测算 网 
站 性 能 并 查看 其 可 视 化 指标 。 回 顾 NASCAR 调查 ,Jacobson 说 道 : 

我 们 知道 Gluck 是 一 位 在 推 特 上 有 很 多 粉丝 的 NASCAR 记者 。 他 注册 我 们 的 网 站 
之 后 我 们 看 了 他 的 粉丝 数量 ,但 是 我 们 没 料 到 他 的 推 特 粉 丝 会 如 此 热情 地 参与 。Gluck 
创建 了 他 的 Wedgie, 我 们 的 仪表 盘 显 示 出 有 大 量 投票 迅速 进来 。 我们 查询 Google 
Analytics 后 确认 那个 时 候 我 们 网 站 上 有 500 多 人 在 线 。 超 过 一 半 的 点 击 来 自 移 动 设备 。 
30 秒 后 ,我 已 经 调 大 我 们 的 云 服务 器 带宽 以 处 理 大 量 上 传 .我 们 看 着 数据 如 潮水 般 涌 进 。 

Wedgies 完全 理解 了 作为 可 视 化 组 织 基本 标志 的 数据 可 视 化 的 重要 性 。 只 有 当 我 们 
能 看 到 正在 发 生 着 什么 事情 的 时 候 .我 们 才 可 以 实时 做 出 反应 。 如 果 Jacobson 没有 监测 
Gluck 的 Wedgie 的 状态 ,也 没有 通过 亚马逊 网 络 服务 AWS 有 针对 地 做 出 应 对 ,那么 , 调 
查 前 溃 是 完全 有 可 能 的 ,而 这 一 过 程 对 Wedgies 的 品牌 必然 造成 损害 。 

Wedgies 是 否 应 该 继续 成 长 ,获得 更 多 客户 和 筹集 更 多 资金 ,Jacobson 和 Haney 将 
做 出 是 否 购买 或 更 像 是 租赁 一 一 其 他 更 强 有 力 、 更 具 意 义 分 析 应 用 的 评估 。 

就 前 端 而 言 , Wedgies 的 可 视 化 设计 能 够 帮助 用 户 对 其 调查 创建 生动 而 简单 的 数据 
可 视 化 。 而 幕后 ,这 家 公司 利用 复杂 但 廉价 的 数据 可 视 化 工具 管理 其 业务 ,同时 为 企业 的 
未 来 成 长 和 专业 化 奠定 了 基础 。 作 为 一 个 颇具 天 分 的 程序 员 ,Jacobson 和 Haney 并 没有 
在 核心 技术 上 花费 数 百 万 美元 让 Wedgies 鹤 立 鸡 群 .但 这 家 公司 正在 为 基于 其 基础 架构 
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第 (a) 这 网 据 可 锦 人 也 组织 
和 文化 开展 数据 探索 而 铺设 未 来 之 路 。 这 就 是 可 视 化 组 织 的 标志 性 特征 。 


84 可 视 化 组 织 的 四 层 架 构 


不 同 的 组 织 利用 不 同类 型 的 工具 将 数据 进行 可 视 化 。 对 于 数据 可 视 化 ,并 不 存在 一 
个 被 全 部 企业 普遍 接受 的 或 “正确 ”的 方式 。 这 并 不 足 为 奇 ,总 之 ,对 于 德 克 萨 斯 大 学 、 
Netffix 和 Wedgies 来 说 ,他 们 的 商业 需求 .目标 及 预算 并 非 完 全 一 致 或 相同 。 因 此 ,每 个 
组 织 用 来 进行 数据 可 视 化 的 方式 是 不 同 的 。 

可 视 化 组 织 利用 数据 可 视 化 工具 主要 完成 的 工作 是 : 

(1) 帮助 员工 了 解 什么 已 经 发 生 、 什 么 正在 发 生 、 什 么 将 要 发 生 , 当然 ,可 能 的 话 ,以 
及 为 什么 发 生 ; 

(2) 从 现 有 数据 库 和 数据 源 中 揭示 新 的 洞 见 ; 

(3) 诊断 并 确定 新 出 现 的 问题 ; 

(4) 对 他 们 的 数据 提出 更 好 的 问题 。 

数据 和 数据 可 视 化 固然 重要 ,但 是 光 凭 其 自身 ,不 能 也 不 可 能 促成 收益 或 利润 的 产 
生 。 对 于 任何 企业 ,还 需要 综合 其 他 很 多 自 变量 ,成 功 永远 都 是 领导 力 、 产 业 、 公 司 规模 、 
竞争 格局 .组织 文化 ,专利 、 资 本 获取 、 人 力 资源 和 运气 等 因素 的 综合 产物 。 

数据 可 视 化 应 用 总 体 上 代表 的 是 前 端 ( 即 大 量 员工 与 用 户 可 在 之 上 进行 直接 交互 的 
地 方 ), 但 是 其 幕后 ,大 数据 需要 组 织 能 够 部 署 一 些 后 端 工 具 , 这 些 工具 与 传统 上 用 于 管理 
结构 化 数据 的 数据 仓库 和 关系 型 数据 库 截 然 不 同 。 

创业 公司 Wedgies 和 巨头 公司 Netflix 在 很 多 方面 都 不 相同 ,巨大 的 差异 中 包括 所 产 
生 数 据 的 量 ,但 不 包括 人 员 规 模 和 投资 来 源 。 相 比较 ,Netflix 能 够 揭示 其 订户 的 更 多 信 
息 ,公平 地 说 ,大 多 数 企业 在 了 解 自身 客户 方面 都 不 能 与 Netilix 相 比 。 但 是 同时 ,这 些 公 
司 具备 了 一 些 共同 的 理念 和 技术 ,都 认识 到 大 数据 和 交互 式 数据 可 视 化 的 重要 性 。 

表 8-1 表示 了 一 个 可 视 化 组 织 的 分 级 方法 , 据 此 ,Netflix 可 以 定义 为 是 一 家 级 别 为 
4 的 可 视 化 组 织 , 即 最 高 级 类 型 。 

表 8-1 可 视 化 组 织 的 4 级 架构 (复杂 程度 以 降序 排列 ) 

















级 别 所 使 用 数据 类 型 所 使 用 数据 可 视 化 类 型 
4 大 数据 交互 式 
3 大 数据 静止 式 
2 小 数据 交互 式 
1 小 数据 静止 式 
0 无 无 








企业 组 织 即 使 对 有 上 千 万 条 记录 的 数据 表 ( 小 数据 集 ) 利 用 静态 数据 可 视 化 工具 来 创 
建 标 准 报表 这 其 实 并 不 难 , 然 而 ,大 数据 则 是 完全 不 同 的 游戏 ,要 从 PB 级 的 非 结构 化 数 
据 中 获得 洞 见 和 价值 , 则 通常 需要 使 用 新 的 交互 式 的 数据 可 视 化 工具 必要 的 话 , 从 小 





大 数 电 可 钢化 


处 着 手 创建 相 应 的 工具 。 
1. 局 限 性 和 明晰 性 


组 织 从 任何 类 型 数据 中 可 获得 的 价值 几乎 是 无 限 的 ,大 数据 可 收获 更 精准 的 预测 ,但 
是 显然 它 不 可 能 预测 任何 事情 。 还 有 ,大 数据 能 提供 小 数据 所 提供 不 了 的 洞 见 和 答案 。 
尽管 大 数据 和 交互 式 数据 可 视 化 的 理论 局 限 性 在 今天 仍然 存在 ,但 亚马逊 、 革 果 、 
Facebook 谷歌 . 推 特 和 Netflix 等 企业 今天 正在 使 用 大 数据 所 做 的 事情 ,即使 在 数 年 前 还 
是 根本 不 可 能 做 到 的 。 

其 次 ,组 织 可 能 期 望 当 他 们 拥抱 交互 式 数 据 可 视 化 和 大 数据 时 能 实现 更 大 的 价值 (一 
些 价值 可 能 是 逐渐 产生 ,一 些 价值 可 能 是 迅速 产生 )。 换 言 之 ,不 管 其 数据 可 视 化 工具 是 
什么 ,对 于 任何 一 家 企业 来 说 ,小 数据 的 作为 总 归 有 限 (级 别 2); 大 数据 和 静态 数据 可 视 
化 工具 也 是 同样 的 道理 (级 别 3) ;而 如 果 利 用 大 数据 和 交互 式 工具 的 话 ,一 家 企业 可 做 的 
事情 就 很 多 。 

还 有 ,4 层 架 构 强 调 的 是 潜在 价值 ,而 非 真 实 或 预期 价值 。 一 家 成 功 将 大 数据 可 视 化 
并 且 部 署 了 交互 式 工具 的 企业 可 能 永远 都 不 能 见识 两 者 的 (完全 ) 价 值 。 大 量 的 因素 会 阻 
碍 其 价值 的 发 挥 , 包 括 某 种 形式 的 丑闻 、 功 能 失调 的 文化 以 及 糟糕 的 领导 力 。 


2 进步 性 


一 个 组 织 如 何 从 一 个 级 别 升 到 另 一 个 级 别 ? 简单 来 说 ,这 需要 时 间 。 例 如 我 们 看 到 
德 克 萨 斯 大 学 是 如 何 经 过 近 三 年 时 间 从 级 别 1 升 到 级 别 2 的 。 也 就 是 说 , 它 的 “升级 "是 
综合 了 管理 者 承诺 、 员 工 认同 以 及 SAS 可 视 化 分 析 应 用 部 署 等 因素 的 最 终结 果 。 

一 个 组 织 在 “升级 "到 级 别 2 之 前 不 一 定 就 要 “完成 "级 别 1, 架 构 中 所 隐藏 的 含义 是 ， 
组 织 的 不 同 构成 部 分 可 以 同时 在 不 同 层面 运作 并 达到 不 同 程度 的 成 功 。 但 是 , 那 也 不 是 
说 这 些 层面 之 间 是 完全 独立 的 ,其 实 它们 之 间 互 相关 联 。 例 如 ,如 果 一 家 公司 正 挣 所 在 级 
别 1 上 , 则 很 可 能 它 对 级 别 4 也 不 太 擅 长 。 

相对 大 数据 来 说 ,小 数据 简直 易如反掌 。 既 然 某 些 部 门 间 依然 会 存在 差异 ,建议 组 织 
不 如 在 对 级 别 1 和 级 别 2 具备 了 一 定 驾 驭 能 力 之 后 再 来 筹划 大 数据 大 局 。 

一 家 公司 可 以 在 一 个 既定 层级 内 随时 间 变 化 而 提升 ,就 像 Nemix 所 做 的 那样 ,级 别 
内 和 级 别 间 的 进步 是 不 可 避免 的 。 

组 织 内 并 不 需要 所 有 部 门 都 在 同一 层面 运营 。 更 重要 的 是 .每 个 部 门 或 团队 可 能 都 
不 在 同一 层面 或 说 同一 层面 内 同一 水 平 点 上 。 

3. 补充 而 非 蔡 代 

架构 的 4 个 层面 并 非 相 互 独立 ,实际 上 ,最 好 将 它们 想象 为 互 为 补充 ,而 非 替 代 。 大 
数据 即使 再 强大 ,也 不 能 取代 对 于 客户 .产品 和 员工 清单 ( 即 小 数据 ) 等 进行 智能 管理 的 需 
求 。 亚 马 逊 确切 地 知道 谁 购买 了 什么 ,并 通过 从 产品 评论 ` 浏 览 习 惯 及 其 他 信息 中 获取 的 
洞 见 来 进一步 增强 这 些 交 易 信 息 和 知识 。 
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第 (sg 章 数据 可 先 了 人 组织 


4 累 和 优势 


4 层 之 间 是 相 加 和 指数 式 的 关系 ,更 重要 的 是 ,它们 导致 累积 优势 。 因 此 ,4 个 层面 的 
运作 更 像 是 网 络 效 果 , 诸 如 Facebook 之 类 的 网 站 之 所 以 这 么 流行 ,反映 出 来 其 原因 就 在 
于 它 很 流行 。 

Netflix 在 架构 4 个 层面 的 每 个 层面 都 很 成 功 ,数据 和 数据 可 视 化 已 经 成 为 公司 
DNA 的 构成 部 分 。Netflix 的 人 力 和 技术 资源 赋予 它 巨大 的 竞争 优势 ,而 这 阻止 了 很 多 
企业 家 、 现 有 企业 以 及 风险 投资 公司 等 对 其 的 抵抗 。 


5. 相关 性 和 子 层 面 


此 框架 使 组 织 间 的 对 比 成 为 可 能 。 例 如 ,一 些 组 织 做 大 数据 比 其 他 组 织 好 。 我 会 将 
亚马逊 . 革 果 .Facebook、 谷 歌 和 推 特 放 在 级 别 4 中 较 微 软 、 雅 虎 、 甲 骨 文 和 戴尔 更 高 的 位 
置 。 但 是 这 不 意味 着 后 面 4 家 公司 客观 上 在 大 数据 方面 “糟糕 ”, 仅 仅 是 将 前 面 的 每 家 公 
司 放 在 级 别 4 的 更 高 位 置 而 已 。 


85 建立 可 视 化 组 织 


一 直 以 来 ,热爱 技术 挑战 的 人 利用 强大 的 数据 可 视 化 工具 进行 数据 切片 和 钻 取 操作 
简直 易如反掌 。 他 们 能 够 随意 添加 新 的 维度 .新 的 数据 源 、 各 种 元 素 和 图 片 , 并 乐此不疲 。 
但 是 ,成 为 一 家 真正 的 可 视 化 组 织 需要 的 不 仅仅 是 购买 并 部 署 一 些 软件 ,还 需要 一 些 关键 
数据 .设计 、 技 术 及 管理 经 验 。 


8.5.1 数据 提示 


建立 数据 可 视 化 ,虽然 考虑 设计 、 企 业 文化 和 技术 等 因素 都 很 重要 ,但 是 ,其 中 最 重要 
的 是 数据 。 简 单 来 说 ,没有 数据 也 就 没有 数据 可 视 化 。 要 成 为 可 视 化 组 织 , 需 要 考虑 重视 
数据 相关 的 提示 。 


1. 数据 可 视 化 是 起 点 


当 处 理 小 数据 之 时 ,要 看 到 什么 正在 发 生 通常 并 不 困难 。 传 统 的 商业 智能 (BL) 和 报 
表 工 具 只 需 处 理 相当 小 数量 的 结构 化 数据 就 足以 解释 什么 正在 发 生 。 但 是 ,对 于 大 数据 
来 说 ,事情 就 没有 这 么 简单 ,这 取决 于 数据 及 你 通过 数据 想 要 做 什么 。 

可 视 化 不 能 讲述 全 部 故事 , 它 帮助 我 们 知道 在 哪里 看 以 及 向 数据 提出 什么 问题 。 也 
就 是 说 ,如 果 我 们 不 知道 在 哪里 最 适合 建立 模型 ,我 们 也 就 不 可 能 建 出 复杂 模型 。 这 些 ， 
可 视 化 给 了 我 们 一 些 诸 如 此 类 的 洞 见 。 

小 数据 通常 指 的 是 传统 BI、 报 表 和 数据 挖掘 等 工具 所 处 理 数据 的 范畴 ,利用 数据 立 
方 体 和 数据 仓库 ,即使 处 理 非常 大 量 的 结构 化 、 交 易 型 的 关系 型 数据 ,也 非常 容易 。 昌 然 
大 多 数 数据 可 视 化 应 用 能 够 处 理 非 结构 化 和 半 结 构 化 数据 ,可 视 化 组 织 仍 然 能 够 认识 到 
所 有 类 型 数据 的 重要 性 。 在 很 多 情况 下 ,小 数据 能 够 提升 从 大 数据 获取 的 洞 见 和 价值 , 反 
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之 亦 然 , 所 以 两 者 之 间 不 是 互相 蔡 代 而 是 互 为 补充 。 

但 是 不 要 误 以 为 元 数据 只 能 在 结构 化 数据 中 应 用 .相反 ,元 数据 对 于 非 结 构 化 数据 的 
理解 和 解释 一 样 ,或 者 说 更 加 重要 。 

将 YouTube 视频 、 推 特 、Instagram 照片 .电话 呼叫 以 及 其 他 形式 的 非 结 构 化 数据 的 
数据 本 身 进行 可 视 化 ,即使 有 可 能 ,通常 也 很 困难 一 一 至 少 对 现在 而 言 。 在 实时 连接 永 不 
断 线 的 世界 里 ,我们 产生 、 消 费 、 获 取 并 存储 数不胜数 的 数据 ,但 是 ,并 非 所 有 数据 都 是 ( 完 
全 ) 可 用 的 。 例 如 ,虽然 话音 .图像 和 脸 部 识别 技术 在 不 断 完 善 ,但 是 很 少 有 人 会 认为 这 些 
领域 技术 已 达 完 美 。 当 然 , 数 据 即使 不 完整 也 可 能 是 有 用 的 。 元 数据 使 得 组 织 能 够 更 好 
地 理解 这 些 数据 的 形式 和 来 源 , 并 最 终 据 此 采取 行动 。 

传统 BI 应 用 几乎 完全 聚焦 于 企业 内 部 数据 ,大 多 数 BI 应 用 历来 忽视 来 自 组 织 外 部 
的 有 价值 数据 源 或 说 加 以 控制 。 这 种 狭隘 思想 通常 导致 次 优化 。 

元 数据 对 于 结构 化 和 非 结 构 化 数据 的 补充 作用 越 来 越 强 ,也 越 来 越 重要 。 即 使 你 能 
够 很 便捷 地 对 主 数据 源 进 行 可 视 化 和 阐释 ,也 还 是 应 该 对 元 数据 进行 采集 、 分 析 和 可 视 
化 。 结 合 元 数据 ,可 以 大 大 提升 自己 对 源 数据 的 理解 。 

外 面 还 有 很 多 很 好 的 数据 ,存在 于 公共 的 和 私有 的 来 源 中 。 政 府 数据 库 也 是 开放 的 ， 
其 中 所 蕴含 的 有 价值 信息 远 超 大 多 数 人 所 认为 的 。 联 合 调 研一 一 跟踪 、 预 测 和 调查 一 一 
确实 丰富 但 难以 发 现 并 迅速 从 中 获取 洞 见 。 而 来 自 客户 调查 的 数据 ,无 论 来 自 内 部 还 是 
外 部 调研 厂商 ,通常 也 是 以 静态 形式 交付 。 因 此 ,这 些 数据 大 多 最 终 雪 藏 于 硬盘 驱动 中 ， 
并 没有 更 好 的 方式 对 此 进行 调查 、 比 较 以 及 之 后 的 获取 一 一 更 不 要 说 关注 底层 数据 的 
更 新 。 

2 可 视 化 好 的 和 差 的 数据 


多 年 来 ,信息 管理 专家 一 直 强 调 这 条 简短 格言 的 重要 性 :“ 垃 圾 进 , 垃 圾 出 (GIGO)”。 
大 数据 时 代 ,GIGO 依然 在 起 作用 一 一 没有 哪个 组 织 会 希望 因为 虚假 记录 或 粗心 的 数据 
输入 而 报错 了 财务 结果 。 但 是 ,出 于 同样 的 原因 ,数据 完美 又 是 不 可 企及 的 。 可 视 化 组 织 
认识 到 数据 可 视 化 可 能 包括 差 的 .可 疑 的 ,重复 的 或 不 完整 的 数据 ,但 是 这 些 不 能 阻止 它 
的 前 进 。 实 际 上 ,数据 可 视 化 较 人 工 看 着 键盘 打字 的 方式 能 够 使 用 户 更 容易 识别 可 疑 信 
息 ,并 更 快 清洗 数据 。 数 据 质量 提升 是 连续 性 的 而 非 二 元 化 的 工作 ,利用 数据 可 视 化 可 以 
帮助 提升 数据 质量 。 


3. 支撑 钻 取 能 力 


出 于 隐私 原因 ,很 多 开放 的 数据 基本 上 都 不 会 包括 姓名 和 社会 保险 号 等 个 人 身份 识 
别 信息 ,但 也 有 例外 .例如 人 们 相信 公共 安全 的 利益 超过 了 个 人 对 隐私 权 的 要 求 。 

诸如 亚马逊 这 样 的 公司 对 于 数据 的 管理 和 保护 也 十 分 严密 ,其 作者 中 心仪 表盘 允许 
作者 查看 每 个 标题 按 地 区 和 日 期 的 销量 ,但 不 能 按 实 体 ( 即 按 个 体 身份 识别 的 客户 ) 查 看 
销量 。 出 版 社 也 缺乏 同样 的 能 力 。 但 是 , 某 个 具体 的 亚马逊 员工 能 够 很 容易 地 判断 哪些 
客户 购买 了 哪 本 书 。 正 是 这 些 数据 奠定 了 E-mail 营销 计划 执行 高 成 功率 的 基础 。 

可 视 化 组 织 懂得 迅速 钻 取 的 能 力 是 必要 的 ,除了 解答 用 户 或 客户 的 具体 问题 之 外 , 同 
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时 提供 详细 的 数据 通常 还 能 够 对 有 问题 的 发 现 加 以 验证 。 它 能 够 回答 简单 但 不 可 回避 的 
诸如 “ 真 的 假 的 "这 类 问题 ,因为 可 视 化 组 织 懂得 ,车 有 需要 ,能 够 很 方便 地 展示 出 相关 支 
撑 信 息 是 再 好 不 过 的 。 拥 有 它 而 不 是 需要 它 , 总 归 是 好 过 需要 它 却 不 具备 。 


4 深入 数据 的 窗户 


数据 科学 是 个 交互 的 过 程 , 它 始 于 我 们 所 研究 体系 的 相关 ( 几 个 ) 假 设 , 然 后 我 们 分 析 
信息 。 分 析 结 果 让 我 们 否定 最 初 的 假设 并 完善 我 们 对 数据 的 理解 。 当 面 对 数 千 个 字段 和 
数 百 万 行 数据 时 ,能 够 通过 更 直观 的 方式 快速 否定 粮 糕 的 假设 十 分 重要 。 就 像 数 据 可 视 
化 可 以 帮助 分 析 人 员 与 非 技 术 出 身 的 听众 进行 沟通 一 样 ,数据 可 视 化 还 可 以 帮助 数据 与 
分 析 人 员 进 行 沟通 。 


8.5.2 设计 提示 


可 视 化 组 织 认 识 到 ,将 数据 进行 可 视 化 的 方式 有 很 多 ,其 中 有 些 确 实 优 于 另外 一 
在 可 视 化 工作 开始 之 前 ,应 考虑 图 8-6 所 示 的 建议 。 
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图 8-6 图 表 建 议 


图 8-6 只 是 用 于 数据 展示 的 起 点 , 它 还 没 能 反映 所 有 可 能 图 表 或 数据 可 视 化 的 类 型 ， 
这 是 一 种 将 主题 按 地 域 分 布 的 展示 图 ,根据 统计 变量 指标 按 比例 以 阴影 或 图 案 的 形式 展 
示 在 地 图 上 ,包括 人 口 密度 、 失 业 率 及 国民 人 均 收 入 等 。 

(1) 尽 可 能 做 减法 : 考虑 帕 累 托 原则 (80/20 原则 ) 一 一 创建 简约 产品 ,80% 的 用 户 只 
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用 到 产品 功能 的 20%。 可 视 化 组 织 理 解 最 好 的 数据 可 视 化 与 智能 产品 设计 具备 很 多 共 
同 点 ,不 能 仅仅 因为 可 以 添加 更 多 东西 就 应 该 添加 进去 。 繁 杂 的 视觉 会 导致 枯燥 ,混淆 以 
及 糟糕 的 决策 。 

(2) UX: 参与 和 试验 至 关 重 要 ,可 视 化 组 织 懂得 ,设计 的 过 程 很 少 是 线性 前 进 的 过 
程 。 理 论 上 或 原型 看 起 来 很 美 , 实 际 不 一 定 就 很 美 。 有 的 时 候 , 需 要 反复 多 次 才能 达到 
正确 。 

(3) 鼓励 互动 : 基本 的 静态 饼 图 等 都 能 够 讲述 故事 ,但 是 可 视 化 组 织 明 白 , 即 时 数据 
可 视 化 工具 能 够 支撑 较 高 程度 的 互动 移动 和 动画 。 技 术 进 步 使 得 用 户 可 以 玩 数据 ,并 发 
现 不 同 变量 之 间 的 新 关系 。 只 要 有 可 能 ,可视化 组 织 创建 的 数据 可 视 化 都 能 够 支撑 互动 ， 
互动 功能 使 得 用 户 便于 迅速 提出 并 回答 问题 ,最 后 ,支撑 其 做 出 更 好 的 决策 。 

(4) 谨慎 使 用 移动 和 动画 : 一 些 时 此 的 东西 不 能 为 添加 而 添加 ,因为 这 除了 会 混淆 
用 户 视听 之 外 ,过 多 的 效果 和 因素 还 可 能 对 不 同 设备 引发 一 些 技术 问题 。 

(5) 使 用 相对 数 而 非 绝 对 数 : 可 视 化 组 织 懂得 ,缺乏 来 龙 去 脉 的 数据 可 视 化 最 终 将 
深 受 其 害 。 只 留 下 用 户 在 那里 问 :“ 跟 什么 比较 ,” 例 如 ,一 个 有 5 万 条 回应 的 Wedgie 对 
于 一 个 普通 公司 而 言 可 能 已 经 是 很 大 量 的 ,但 是 对 于 Netflix 而 言 , 一 部 热门 电影 在 某 个 
周末 发 生 同 样 数量 的 评论 可 能 也 就 被 当成 个 小 不 点 而 已 。 可 视 化 组 织 懂得 ,没有 讲 出 来 
龙 去 脉 的 数据 可 视 化 并 不 完美 。 不 要 让 客户 或 员工 从 缺失 的 设计 元 素 中 寻求 意义 ,这 将 
增加 制定 糟糕 商业 决策 的 概率 。 


8.5.3 技术 提示 


数据 和 设计 并 不 能 存在 于 真空 之 中 ,如 若 没有 当前 技术 的 迅速 发 展 , 对 于 那些 数据 处 
理 的 需求 ,人 们 一 定 会 受制 于 严重 的 局 限 。 


1. 尽 可 能 考虑 使 用 API 


ETL 的 大 势 已 去 ,但 对 于 无 数组 织 来 说 , 它 仍 在 起 作用 。 在 可 预见 的 不 远 将 来 ,大 多 
数组 织 都 将 兼顾 多 种 数据 采集 手段 。 正 因为 具有 强 有 力 、 高 速 和 灵活 等 特点 ,API( 应 用 
编程 接口 ) 越 来 越 流行 。 我 们 可 以 来 假设 这 种 情况 : 如 果 一 个 组 织 能 够 创建 或 使 用 API， 
同时 又 能 解决 所 涉及 的 安全 ,法 规 或 技术 问题 ,那么 它 一 定 应 该 用 API。Netflix、 
Wedgies 及 其 他 可 视 化 组 织 对 此 的 理解 极为 深刻 。 

API 支撑 对 具体 业务 的 封装 ,促进 整体 维护 和 应 用 , 写 得 好 的 API 能 够 帮助 对 具体 
任务 进行 分 解 ,因此 提升 扩展 性 和 重用 率 。 因 为 API 的 本 质 特 点 是 对 信息 提供 直接 接 
口 , 尤 其 是 因为 有 专业 领域 专家 进行 开发 和 维护 ,从 而 数据 质量 也 能 因此 得 以 提升 。 


2 拥抱 新 工具 


当今 的 组 织 还 只 是 利用 为 处 理 结构 化 交易 型 信息 ( 即 小 数据 ) 所 设计 的 应 用 来 进行 大 
量 工作 。 幸 运 的 是 ,选择 颇 为 丰富 , Hadoop、NoSQL、 亚 马 逊 网 络 服务 (Amazon Web 
Services，AWS) 及 诸如 此 类 的 服务 ,已 成 为 处 理 PB 级 非 结构 化 数据 的 更 好 的 装备 。 

从 更 高 层面 说 ,可 视 化 组 织 需要 认识 到 三 件 关 键 事 情 。 首 先 ,对 于 数据 可 视 化 的 需求 
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从 来 没有 比 现在 更 凸显 ,即使 再 无 其 他 原因 激发 ,需求 已 经 有 那么 多 了 。 其 次 ,总 体 而 言 ， 
当前 的 工具 较 20 世纪 90 年 代 流 行 的 预 置 的 客户 端 -服务 器 系统 和 应 用 ,部 署 起 来 更 容易 
也 更 便宜 。 最 后 ,这 些 应 用 非常 具 用 户 友 好 性 ,它们 不 再 是 专业 人 士 ,统计 学 家 、 科 学 家 及 
其 他 经 过 数 年 专业 训练 后 人 员 的 专属 领地 。 


3. 了 解数 据 可 视 化 工具 的 局 限 


要 将 数据 可 视 化 放 在 合适 的 商业 背景 中 ,可 视 化 组 织 认识 到 ,数据 可 视 化 应 用 光 靠 自 
身 并 不 能 奇迹 般 地 “解决 大 数据 问题 ”, 相 反 ,数据 可 视 化 必须 与 大 数据 及 其 他 应 用 结合 在 
一 起 才能 起 作用 。 亚 马 逊 、 苹 果 、Facebook、eBay、Netnix、 谷 歌 . 推 特 及 其 他 大 数据 公司 对 
于 他 们 要 做 什么 、 如 何 做 都 会 从 战略 层面 进行 更 系统 的 考虑 。 他 们 不 会 将 一 个 最 佳 实践 
数据 可 视 化 工具 连接 到 一 个 过 时 的 即将 抛弃 的 数据 库 使 用 。 对 可 视 化 组 织 来 说 ,更 多 地 ， 
还 需要 相应 的 心态 、 文 化 以 及 思考 数据 的 方式 。 


8.5.4 管理 提示 


成 为 可 视 化 组 织 所 需要 的 远 不 止 抓 取 一 堆 数据 加 上 购买 和 部 署 所 谓 最 优 性 能 工具 。 
组 织 文 化 和 员工 态度 都 是 关键 因素 ,换言之 ,不 要 忽视 了 管理 。 

(1) 鼓励 自助 服务 .探索 和 数据 民主 。 

只 是 因为 所 有 类 型 或 来 源 的 数据 都 可 以 进行 可 视 化 而 将 数据 进行 可 视 化 ,并 不 能 代 
替 决 策 ,决策 必须 得 由 人 来 做 。 只 是 可 视 化 组 织 的 员工 总 体 上 较 其 对 手 对 于 新 的 想法 会 
更 开放 些 ,他 们 也 更 乐于 探索 。 

(2) 提出 正面 怀疑 。 在 大 数据 时 代 , 数 据 可 视 化 价值 无 限 , 但 这 并 不 意味 着 数据 全 能 
并 通 秋 一切。 可视化 组 织 的 员工 发 现 问题 的 能 力 变 得 前 所 未 有 的 关键 。 在 理想 情况 下 ， 
数据 可 视 化 可 以 促进 更 广泛 的 研究 、 更 精准 的 问题 和 最 终 更 明智 的 答案 。 

数据 可 视 化 工具 能 够 呈现 之 前 未 知 或 不 够 明朗 的 趋势 ,但 是 这 些 趋 势 也 可 能 掩盖 更 
深 的 趋势 甚至 完全 误导 人 们 。 

(3) 相信 过 程 ,而 非 结 论 。 任 何 一 个 具体 数据 可 视 化 结果 可 能 并 不 能 导致 开创 性 的 
创新 、 全 新 产品 或 客户 洞 见 , 但 发 现 新 趋势 的 信息 可 视 化 过 程 是 值得 推崇 的 。 可 视 化 的 过 
程 而 非 其 结果 确实 是 其 构成 的 一 个 根本 部 分 。 

(4) 聘用 综合 型 人 才 。 全 部 员工 都 应 该 将 数据 运用 作为 其 工作 的 一 部 分 ,因此 可 以 
推论 ,数据 可 视 化 应 该 更 广泛 地 加 以 部 署 和 获取 。 员 工 不 应 该 只 是 向 IT 或 “数据 部 门 ” 
提交 一 个 支持 请 求 , 数 据 可 视 化 工具 及 其 结果 应 该 更 具 广 泛 的 民主 性 。 不 要 将 运用 工具 
和 设计 工具 搞 混 消 。 

确实 ,Tableau 和 QlikView 的 产品 强大 且 用 户 友好 ,它们 能 够 帮助 每 个 用 户 提 升 档 
次 , 且 很 多 情况 下 对 编程 技能 并 无 一 定 要求 。 但 是 ,数据 可 视 化 的 超级 用 户 和 设计 师 还 在 
做 着 一 般 用 户 无 法 做 到 的 事情 。“ 理 想 ” 的 设计 师 应 该 具备 包括 计算 机 编程 .技术 .设计 、 
商业 管理 、 数 学、 数据 建 模 以 及 统计 学 等 专业 综合 背景 。 但 是 ,你 不 可 能 找到 一 个 具备 以 
上 全 部 专业 学 历 的 人 。 一 个 人 只 需 具 备 天 生 的 好 奇 心 .一定 的 智慧 和 实践 经 验 ,也 就 基本 
可 以 立马 着 手 开展 工作 了 。 


太 数 据 可 外 化 


【延伸 阅读 】 
除了 Google, 这 些 公司 也 能 做 出 AphaGo 


如 我 预料 ,Google AlphaGo 又 赢 了 一 局 (图 8-7) ,并 且 我 坚信 它 会 赢得 余下 三 局 一 一 
人 机 大 战 的 本 质 是 一 场 计 算 比 赛 ,计算 机 早已 胜出 ,Google AlphaGo 将 这 一 点 显 性 化 了 。 
正 是 因为 此 ,将 AlphaGo 推 上 神 坛 是 没有 任何 道理 的 。 事 实 上 ,理论 上 来 说 ,能 够 研发 出 
AlphaGo 的 科技 公司 绝 不 止 Google 一 家 ,AlphaGo 的 胜出 亦 不 能 全 归功 于 Google。 





图 8-7 谷歌 AlphaGo 与 韩国 李 世 石 围棋 人 机 大 战 


如 果真 正 理解 人 工 智 能 ,了 解 各 大 科技 公司 在 这 一 领域 的 作为 ,就 不 会 对 AlphaGo 
的 胜出 大 惊 小 怪 。 说 这 是 人 工 智 能 领域 的 “ 登 月 事件 ”, 抑 或 说 机 器 从 公元 2016 年 3 月 9 
日 这 天 开始 拥有 了 生命 ,有 些小 题 大 做 。 

AlphaGo 胜利 的 本 质 是 计算 机 “ 算 力 ”的 胜利 , 它 与 1997 年 [BM 深蓝 战胜 国际 象棋 
冠军 并 无 本 质 不 同 。 只 是 AlphaGo 的 计算 能 力 强 大 了 三 万 倍 ,并 且 它 不 会 拥有 深蓝 如 房 
子 般 的 体积 ,而 是 在 “云端 ”的 一 个 无 形 的 系统 , 谁 都 不 能 描绘 AlphaGo 的 形状 ,这 就 是 云 
计算 的 魅力 所 在 。 

AlphaGo 的 积极 意义 在 于 : 它 将 计算 机 的 “计算 力 ” 显 性 化 并 且 大 众 化 。 此 前 的 多 年 
里 ,尽管 人 工 智 能 不 断 取得 进展 , 却 从 未 引发 如 此 关注 ,不 得 不 说 这 是 Google 开展 的 一 次 
有 利于 其 自身 和 全 行业 的 行动 。 不 过 ,在 一 些 不 了 解 人 工 智 能 的 人 的 助 推 之 下 , 它 让 一 些 
人 对 AI 有 了 错误 的 理解 ,这 里 是 必须 澄清 的 事实 : 

AlphaGo 只 是 人 工 智能 的 冰山 一 角 

人 工 智能 的 本 质 是 让 机 器 拥有 智慧 ,而 不 只 是 计算 能 力 。 如 果 比 拼 单 机 的 计算 能 力 ， 
中 国 的 “天 河 2 号 ”可 排名 全 球 第 一 ,不 过 这 并 无 太 大 意义 。 人 工 智 能 的 巧妙 就 在 于 , 它 可 
以 不 断 优化 自己 的 算法 ,进而 让 计算 能 力 指数 级 增长 ,借助 于 云端 的 服务 器 集群 ,以 为 行 
将 普及 的 量子 计算 生物 计算 ,让 机 器 越 来 越 聪明 。 机 器 即 可 以 是 无 人 车 无 人 机 这 些 硬 
件 , 也 可 以 是 Siri 这 类 软件 。 

AlphaGo 比 深蓝 运算 力 强大 三 万 倍 ,但 人 工 智 能 理论 上 来 说 ,计算 力 可 无 穷 大 。 事 
实 上 ,AlphaGo 并 没有 足够 体现 出 人 工 智 能 的 强大 所 在 , 它 是 运算 力 十 分 强大 、 学 习 力 相 
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第 日 全 晤 扎 避 而 多 夯 硬 


对 初级 的 “ 弱 人 工 智 能 ”。 

科学 家 正在 研究 的 人 工 智 能 是 让 机 器 可 以 观摩 别人 下 棋 就 知道 围棋 这 个 概念 、 围 棋 
的 规则 ,并 基于 此 去 学 习 人 类 的 做 法 进而 学 会 下 棋 。2012 年 ,百度 现任 首席 科学 家 吴 恩 
达 在 Google 做 了 一 个 著名 的 实验 : 让 计算 机 识别 上 千 万 张 图 片 , 它 自己 总 结 出 “什么 是 
猫 ”, 进 而 识别 出 其 他 图 片 中 的 猫 。 这 相对 于 人 类 来 说 ,依然 还 有 巨大 的 差距 : 我 们 给 一 
个 小 孩子 展示 10 张 图 片 ,TA 可 能 就 会 有 一 个 概念 了 。 但 更 强大 的 人 工 智 能 就 会 自我 学 
习 、 自 我 成 长 , 它 会 变 得 越 来 越 聪明 。AlphaGo 是 针对 * 封 闭 规 则 ”的 算法 实现 ,终极 的 人 
工 智 能 要 面临 这 个 世界 无 穷 无 尽 的 不 确定 性 ,对 计算 力 有 着 无 穷 无 尽 的 要 求 。 

因此 ,AlphaGo 只 是 人 工 智能 应 用 的 冰山 一 角 。 

AlphaGo 并 未 全 面 反映 人 工 智 能 的 进展 

相对 于 无 人 车 上 路 .调戏 语音 助手 这 类 活动 ,没有 什么 比 “ 竟 技 PK” 更 能 吸引 人 们 的 
围观 和 讨论 欲望 ,尤其 是 在 一 切 皆 娱乐 的 今天 。 体 育 竞技 .我 是 歌手 、 王 自如 VS 罗 永 浩 
均 能 被 高 度 关注 ,无 一 不 是 这 个 道理 。AlphaGo 本 质 就 是 一 场 娱乐 包装 的 商业 秀 , 与 《最 
强大 脑 ) 并 无 本 质 不 同 ,只 是 后 者 实在 是 太 枯 燥 无 聊 了 一 些 。 

据说 ,关注 这 场 被 一 些 媒 体 称 为 “世纪 之 战 ”的 较量 的 ,有 60% 是 中 国人 ,又 据说 ,其 
中 大 部 分 是 不 会 下 围棋 的 。 对 于 许多 人 来 说 ,他 们 只 关注 结果 ,不 关注 个 中 原理 。 这 并 不 
怪 他 们 ,围棋 和 人 工 智能 同样 都 很 难 懂 。 

百年 前 人 们 第 一 次 看 电影 见 到 屏幕 上 的 火车 , 吓 得 四 处 溃散 ,知道 个 中 原理 的 并 不 会 
如 此 。 倘 若 一 直 保 持 着 对 人 工 智 能 领域 的 关注 ,就 不 会 对 AlphaGo 的 胜出 如 此 大 惊 
小 怪 。 

在 AlphaGo 之 前 ,人 类 在 人 工 智 能 技术 上 已 经 取得 长 足 进 展 , 并 且 应 用 在 我 们 生活 
之 中 : 能 自动 避 障 的 无 人 飞机 、 可 翻译 文档 的 百度 翻译 、 充 当 人 们 助理 的 Siri, 背 后 都 应 用 
了 人 工 智能 技术 。 在 用 户 看 不 到 的 地 方 ,人 工 智 能 更 是 被 大 量 应 用 : 电 商 平台 利用 海量 
数据 去 开展 精准 营销 .Google 旗下 的 波士顿 机 器 人 行走 于 山谷 之 间 、 美 国 在 线 教育 平台 
KnewTon 借助 于 大 数据 对 学 生 因材施教 ,这 些 背 后 都 应 用 到 人 工 智能 技术 。 在 研究 中 ， 
Google“ 识 别 猫 ” 语 音 识别 准确 率 超过 90% 大 数据 预测 股价 ,这 些 均 是 人 工 智能 的 一 些 
实验 。 

AlphaGo 并 不 能 代表 人 工 智能 的 最 新 进展 , 它 是 算法 和 算 力 的 胜利 ,但 我 们 并 没有 
看 到 AlphaGo 有 更 强大 的 学 习 能 力 ,这 才 是 人 工 智 能 的 关键 。 

请 不 要 将 AlphaGo 的 胜利 只 归功 于 Google 

毫 无 疑问 ,Google 是 一 家 伟大 的 公司 ,AlphaGo 证 明了 Google 在 人 工 智 能 领域 的 成 
就 , 黄 定 了 Google 在 人 工 智 能 领域 的 地 位 。 不 过 ,因为 在 2014 年 收购 AlphaGo 并 支持 
它 研发 围棋 算法 ,就 将 人 工 智能 的 功劳 归功 于 Google, 其 至 将 矛头 指向 没有 做 出 
AlphaGo 的 公司 是 不 对 的 一 一 当然 ,有 理由 相信 创作 “Google 在 研发 人 工 智 能 、 百 度 却 在 
送 外 卖 ” 的 段子 手 根本 不 懂 人 工 物 能 ,因此 才 会 对 百度 在 人 工 智 能 领域 的 付出 视而不见 。 

在 我 看 来 ,能 够 做 出 AlphaGo 的 科技 巨头 绝对 不 会 只 有 Google 一 家 ,至 少 以 下 这 些 
公司 均 有 实力 研发 出 AlphaGo。 

IBM: 1997 年 IBM 用 深蓝 计算 机 战胜 了 国际 象棋 冠军 , 它 在 人 工 智 能 领域 同样 表现 
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突出 ,其 与 美国 德 克 萨 斯 大 学 联合 打造 的 “ 沃 森 ?基于 单机 ,并 不 联网 ,但 能 够 进行 大 量 的 
自然 语言 处 理 , 并 且 回 答 各 种 人 类 问题 。2011 年 , 它 在 一 档 智 力 竞猜 节目 中 战胜 了 人 类 。 
IBM 研发 出 能 够 战胜 李 世 石 的 系统 并 非 难事 只 是 它 选 择 去 做 难度 更 小 的 问答 而 已 。 
IBM 有 能 力 研 发 出 AlphaGo。 

微软 : 微软 拥有 类 似 于 Cortana 的 人 工 智 能 助理 ,还 在 中 国 推出 了 一 个 “小 冰 ”, 与 
Siri 不同, 微软 的 AI 助理 可 以 根据 基于 上 下 文 的 “长 程 情感 对 话 能 力 ”,Cortana 具有 自我 
学 习 能 力 ,能 够 在 与 人 类 交互 中 变 得 越 来 越 聪 明 。 尽 管 它 不 会 下 围棋 ,但 如 果 微 软 愿 意 ， 
基于 AI 技术 积累 研发 出 类 似 于 AlphaGo 的 下 期 机 器 人 并 无 难处 。 

Facebook: Facebook 拥有 三 个 人 工 智 能 实验 室 , 其 中 美国 两 个 ` 巴 黎 一 个 , 招 幕 了 大 
量 世 界 顶 级 AI 专家 。 其 正在 内 测 名 为 M 的 数字 助理 ,可 基于 深度 学 习 技 术 , 鉴 于 用 户 醇 
酒 照片 并 禁止 其 发 布 。 同 时 它 还 可 帮助 用 户 完成 诸多 任务 ,例如 预订 行程 .给 好 友 送 生日 
礼物 等 。 其 外 它 的 社交 搜索 算法 可 以 借助 于 用 户 好 友 关 系 去 过 滤 和 排序 结果 ,给 用 户 最 
想 要 的 答案 。 就 算 AlphaGo 胜出 ,Facebook 依然 可 跟 Google 在 AI 上 一 较 高 下 。 

百度 : 在 Google 取得 任何 进展 之 后 , 哈 声 百度 成 为 正确 的 事情 ,这 是 段子 手 们 的 基 
本 逻辑 。 事 实 却 是 ,百度 并 没有 只 是 在 做 外 卖 , 它 在 人 工 智 能 领域 同样 投入 巨大 。 除 了 力 
邀 吴 恩 达 等 顶级 AI 专家 加 盟 之 外 ,百度 在 硅谷 开设 了 深度 学 习 实 验 室 ,拥有 百度 大 脑 项 
目 已 达到 三 岁 婴 儿 的 智力 ,并 建立 了 “ 深 盟 ”人 工 智 能 开源 平台 ,将 人 工 智 能 成 果 开 放 给 行 
业 。 百 度 拥有 与 Cortana 水 平 相当 的 语音 搜索 助理 度 秘 , 它 比 Siri 更 先进 ,可 在 线 下 
单一 一 这 并 不 比 下 围棋 简单 ,识别 语音 许多 公司 都 可 以 做 ,但 识别 之 后 还 要 理解 语义 ,而 
人 类 的 语义 规则 却 是 千变万化 的 。 因 此 ,我 坚信 百度 眼下 已 具备 研发 AlphaGo 围棋 系统 
的 实力 。 

除了 上 述 公司 之 外 ,Intel.Amazon、 阿 里 巴巴 等 公司 或 许 都 有 实力 可 研发 出 AlphaGo 
这 样 的 围棋 机 器 人 ,它们 都 已 陆续 成 立 人 工 智 能 实验 室 。 未 来 ,人 类 与 AlphaGo 挑战 不 
会 有 太 多 看 点 一 因为 人 类 必 败 无 疑 。 很 快 就 会 出 现 科 技 巨 头 的 “机 器 人 ”围棋 大 战 , 大 
家 都 拿 自己 的 AlphaGo 来 较量 , 玩 围棋 “世界 杯 ”, 看 谁 的 算法 更 厉害 。 

任何 重大 的 技术 进展 都 不 是 靠 一 家 公司 来 推动 的 ,人 工 智 能 同样 如 此 。Google 绝对 
不 能 凭借 一 已 之 力 取得 今日 之 进展 ,未 来 想 要 人 工 智 能 造福 人 类 ,需要 更 多 公司 参与 进 
来 。 越 来 越 多 的 科技 公司 正在 为 AI 造福 人 类 改变 世界 而 努力 。AlphaGo 的 意义 在 于 ， 
它 将 掀起 新 一 轮 的 人 工 智 能 竞赛 一 一 这 是 更 值得 关注 的 事情 。 

资料 来 源 : 腾讯 科技 , 罗 超 ,2016 年 3 月 11 日 





【实验 与 思考 】 
建立 数据 可 视 化 组 纪 
1. 实验 目的 


(1) 理解 什么 是 数据 驱动 。 数 据 可 视 化 组 织 的 内 涵 是 什么 ? 
(2) 熟悉 典型 的 可 视 化 组 织 和 创业 公司 的 可 视 化 发 展 。 
(3) 熟悉 建立 可 视 化 组 织 的 主要 方法 。 
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2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


3. 实验 内 容 与 步骤 


(1) 什么 是 数据 驱动 ? 如 何 理解 数据 驱动 组 织 的 座右铭 之 一 :“If you can’t measure 
it，you can’t fix it( 如 果 你 无 法 衡量 它 , 你 就 不 能 修复 它 )”? 
答 : 























(2) 为 什么 说 : 网 络 的 很 多 变化 都 是 因数 据 驱动 而 发 生 的 ? 
答 : 














(3) 数据 透明 可 以 给 组 织带 来 什么 好 处 ? 
答 : 

















(4) 什么 是 元 数据 ? 什么 是 源 数据 ? 请 举例 说 明 。 
答 : 

















(5) 建立 可 视 化 组 织 , 除 了 部 署 一 些 数据 可 视 化 软件 ,还 需要 哪些 方面 的 经 验 
(提示 )? 
答 : 














攻 








4. 实验 总 结 

















5. 实验 评价 (教师 ) 











Tableau 数据 可 视 化 入 门 


【导读 案例 】 
数据 分 析 的 五 大 思维 方式 


众所周知 ,可 视 化 的 价值 在 于 呈现 数据 背后 的 规律 ,从 而 帮助 使 用 者 提高 决策 效率 与 
能 力 。 对 于 用 户 数据 的 分 析 , 是 进行 可 视 化 系统 建设 必 不 可 少 的 一 个 环节 。 

首先 ,我 们 要 知道 ,什么 叫 数 据 分 析 。 其 实 从 数据 到 信息 的 这 个 过 程 ,就 是 数据 分 析 。 
数据 本 身 并 没有 什么 价值 ,有 价值 的 是 我 们 从 数据 中 提取 出 来 的 信息 。 

然而 ,我 们 还 要 搞 清 楚 数 据 分 析 的 目的 是 什么 ,目的 是 解决 我 们 现实 中 的 某 个 问题 或 
者 满足 现实 中 的 某 个 需求 。 

在 这 个 从 数据 到 信息 的 过 程 中 ,有 一 些 固定 的 思路 ,或 者 称 之 为 思维 方式 。 

第 一 大 思维 : 对 照 。 

对 照 ,俗称 对 比 。 单 独 看 一 个 数据 是 不 会 有 感觉 的 ,必须 跟 另 一 个 数据 做 对 比 才 能 找 
到 感觉 ,如 图 9-1 所 示 。 
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2 100 
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(a) (b) 
图 9-1 对 比 


图 9-1 中 ,单独 看 图 9-1(a) 毫 无 感觉 ,而 图 9-1(b) 经 过 对 比 就 会 发 现 ,今天 跟 昨天 的 
销量 实际 上 差 了 一 大 截 。 

对 照 是 最 基本 的 思路 ,也 是 最 重要 的 思路 。 在 现实 中 的 应 用 非常 广 , 例 如 选 款 测 款 、 
监控 店铺 数据 等 ,这 些 过 程 就 是 在 做 “对 照 ”。 分 析 人 员 拿 到 数据 后 ,如 果 数 据 是 独立 的 ， 
无 法 进行 对 比 的 话 , 就 无 法 判断 , 即 无 法 从 数据 中 读 取 有 用 的 信息 。 


太 数 扎 可 掀 人 (化 


第 二 大 思维 : 拆 分 。 

分 析 这 个 词 从 字面 上 来 理解 ,就 是 拆 分 和 解析 ,可 见 拆 分 在 数据 分 析 中 的 重要 性 。 

当 某 个 维度 可 以 对 比 的 时 候 , 我 们 选择 对 比 。 在 对 比 后 发 现 问题 需要 找 出 原因 或 者 
根本 就 无 法 对 比 的 时 候 , 拆 分 就 闪 亮 登场 了 。 

我 们 来 看 这 样 一 个 场景 : 运营 小 美 经 过 对 比 店铺 的 数据 ,发 现今 天 的 销售 额 愉 有 上 昨 
天 的 50%, 这 个 时 候 , 我 们 再 怎么 对 比 销售 额 这 个 维度 ,已 经 没有 意义 了 。 这 时 需要 对 销 
信和 额 这 个 维度 做 分 解 , 折 分 指标 。 

销售 额 一 成 交 用 户 数 X 客 单价 
其 中 成 交 用 户 数 又 等 于 访客 数 X 转 化 率 。 例 如 ,图 9-2(a) 是 一 个 指标 公式 的 拆 解 ， 
图 9-2(b) 是 对 流量 的 组 成 成 分 做 的 简单 分 解 ( 还 可 以 分 很 细 很 全 ) 。 


销售 额 流量 组 成 



































[| 
成 交 用 户 数 | x | 客 单价 | 免费 流量 | 付费 流量 
访客 数 Xx 转化 率 搜索 类 目 直通 车 钻石 展位 
(a) (b) 


图 9-2 拆 分 


拆 分 后 的 结果 ,相对 于 拆 分 前 会 清晰 许多 ,便于 分 析 , 找 细节 。 可 见 , 拆 分 是 分 析 人 员 
必 备 的 思维 之 一 。 

第 三 大 思维 : 降 维 。 

你 是 否 有 面 对 一 大 扒 维度 的 数据 却 束手无策 的 经 历 ? 当 数 据 维度 太 多 的 时 候 , 不 可 
能 每 个 维度 都 拿 来 分 析 , 有 一 些 有 关联 的 指标 ,是 可 以 从 中 筛选 出 代表 的 维度 ,如 表 9-1 
所 示 。 




















表 9-1 多 个 维度 
日 期 | 浏览 量 | 访客 数 | 访问 深度 | 销售 额 | 销售 量 | 订单 数 | 成 交 用 户 量 | 客 单价 | 转化 率 
2015/2/1| 2584 957 区 多 9045 96 80 67 135 7% 
2015/2/2| 2625 | 1450 2.5 9570 | 125 104 67 110 6% 
2015/2/3| 2572 | 1286 2:0 12 780 | 130 108 90 142 7% 
2015/2/4| 4125 | 1650 2.5 16 345 | 143 119 99 155 6% 
2015/2/5| 3699 | 1233 3.0 8362 | 107 89 74 113 6% 
2015/2/6| 4115 | 1286 [村 14040 | 130 108 90 166 7% 





























这 么 多 的 维度 ,其 实 不 必 每 个 都 分 析 。 我 们 知道 成 交 用 户 数 二 访客 数 二 转化 率 , 当 存 
在 这 种 维度 ,是 可 以 通过 其 他 两 个 维度 通过 计算 转化 出 来 的 时 候 ,就 可 以 降 维 。 
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成 交 用 户 数 、 访 客 数 和 转化 率 , 只 要 三 选 二 即 可 。 另 外 ,成 交 用 户 数 X 客 单价 一 销售 
额 ,这 三 个 也 可 以 三 择 二 。 

另外 ,我 们 一 般 只 关心 对 我 们 有 用 的 数据 , 当 有 某 些 维度 的 数据 跟 我 们 的 分 析 无 关 
时 ,我 们 就 可 以 筛选 挤 , 达 到 “ 降 维 ”的 目的 。 

第 四 大 思维 : 增 维 。 

增 维 和 降 维 是 相对 的 ,有 降 必 有 增 。 当 我 们 当前 的 维度 不 能 很 好 地 解释 我 们 的 问题 
时 ,我 们 就 需要 对 数据 做 一 个 运算 ,增多 一 个 指标 如 表 9-2 所 示 。 


表 9-2 多 增加 一 个 指标 




















关键 词 | 挤 案 | 搜索 指数 | 占 比 | 点 击 指数 | 交 城 | 点 击 率 | 。 < 
1 | 毛 呢 外 套 | 242 165 | 1 119 253 |58. 81% | 512 673 30.76% | 45.08% |2448482 
2 > 外 33285| 144688 | 7.29%| 80240 48.88% | 54.79% | 2448 368 
3 人 7460 29714 | 1.45%| 15 070 21.385%| 50.04% | 1035 325 
4 ri 6400 22543 | 1.09% 11.143 | 22.34% | 48.72% 60. 258 
5 a 5463 23 443 | 1.14% 11.328 | 19.87% | 19.87% 108. 816 


























我 们 发 现 一 个 搜索 指数 和 一 个 宝贝 数 ,这 两 个 指标 一 个 代表 需求 ,一 个 代表 竞争 ,有 
很 多 人 应 用 公式 搜索 指数 二 宝贝 数 一 倍 数 , 用 倍数 来 代表 一 个 词 的 竞争 度 ( 仅 供 参 考 ) 。 
这 种 做 法 ,就 是 在 增 维 。 增 加 的 维度 有 一 种 叫 法 称 为 “辅助 列 ”。 

增 维 和 降 维 是 必需 的 ,对 数据 的 意义 有 充分 的 了 解 后 ,为 了 方便 我 们 进行 分 析 , 有 目 
的 地 对 数据 进行 转换 运算 。 

第 五 大 思维 : 假说 。 

当 我 们 拿 不 准 未 来 的 时 候 , 或 者 说 是 迷茫 的 时 候 。 我 们 可 以 应 用 “假说 ”, 假 说 是 统计 
学 的 专业 名 词 ,俗称 假设 。 当 我 们 不 知道 结果 ,或 者 有 几 种 选择 的 时 候 , 那 么 我 们 就 召唤 
“假说 ”, 先 假设 有 了 结果 ,然后 运用 逆向 思维 。 

从 结果 到 原因 ,要 有 怎么 样 的 因 , 才 能 产生 这 种 结果 ,这 有 点 寻根 的 味道 。 那 么 ,我 们 
可 以 知道 ,现在 满足 了 多 少 因 ,还 需要 多 少 因 。 如 果 是 多 选 的 情况 下 ,我 们 就 可 以 通过 这 
种 方法 来 找到 最 佳 路 径 (决策 )。 

当然 ,假说 ”的 威力 不 仅仅 如 此 。“ 假 说 ”可 是 一 匹 天 马 ( 行 空 ), 除 了 结果 可 以 假设 ， 
过 程 也 是 可 以 被 假设 的 。 

资料 来 源 : 公众 号 零 一 ,数字 冰 直 大 数据 可 视 化 ,2016-3-2 
阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 请 回顾 ,文中 介绍 的 数据 分 析 的 五 大 思维 方式 是 指 什么 ? 

答 


三 : 
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(2) 试 分 析 , 这 五 大 思维 方式 在 运用 时 有 顺序 要 求 吗 ? 为 什么 ? 
答 : 














(3) 请 思考 ,列举 并 描述 一 个 运用 这 五 大 思维 方式 (或 者 之 一 ) 来 进行 数据 分 析 的 
例子 。 
答 : 














(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 
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Tableau 软件 的 基本 理念 是 : 界面 上 的 数据 越 容易 操控 ,公司 对 自己 所 在 业务 领域 里 
的 所 作 所 为 到 底 是 正确 还 是 错误 ,就 能 了 解 得 越 透 彻 。 


9.1.1 Tableau 的 数据 可 视 化 技术 


Tableau 的 数据 可 视 化 技术 主要 包括 以 下 两 个 方面 : 

(1) 独创 的 VizQL 数据 库 。Tableau 的 初创 合伙 人 是 来 自 斯 坦 福 大 学 的 数据 科学 
家 ,他 们 为 了 实现 卓越 的 可 视 化 数据 获取 与 后 期 处 理 , 并 没有 像 普 通 数 据 分 析 类 软件 那样 
简单 地 调用 和 整合 现行 主流 的 关系 型 数据 库 , 而 是 进行 大 尺度 创新 ,独创 了 VizQL 数 
据 库 。 

(2) 用 户 体 验 良好 且 易 用 的 表现 形式 。Tableau 提供 了 一 个 新 颖 而 易于 使 用 的 界面 ， 
使 得 处 理 规模 巨大 、 多 维 的 数据 时 .可 以 即时 地 从 不 同 角度 和 设置 看 到 数据 所 呈现 出 的 规 
律 。Tableau 通过 数据 可 视 化 技术 ,使 得 数据 挖掘 易于 操作 ,能 自动 生成 和 展现 出 高 质量 
的 图 表 ( 图 9-3) . 正 是 这 个 特点 葛 定 了 其 广泛 的 用 户 基础 。 
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图 9-3 Tableau 图 表 


9.1.2 Tableau 的 主要 特性 
Tableau 的 出 色 表 现在 以 下 几 个 方面 。 
1. 极速 高 效 


传统 BI 通过 ETL 过 程 处 理 数据 ,数据 分 析 往 往 会 延迟 一 段 时 间 。 而 Tableau 通过 
内 存 数据 引擎 ,不 但 可 以 直接 查询 外 部 数据 库 , 还 可 以 动态 地 从 数据 仓库 抽取 数据 ,实时 
更 新 连接 数据 ,大 大 提高 了 数据 访问 和 查询 的 效率 。 

此 外 ,用 户 通过 拖 放 数 据 列 就 可 以 由 VizQL 数据 库 转化 成 查询 语句 ,从 而 快速 改变 
分 析 内 容 ; 单 击 就 可 以 突出 变 亮 显示 ,并 可 随时 下 销 或 上 卷 查看 数据 ;添加 一 个 筛选 器 、. 创 
建 一 个 组 或 分 层 结构 就 可 变换 一 个 分 析 角 度 .实现 真正 灵活 .高效 的 即时 分 析 。 


2 简单 易 用 


这 是 Tableau 的 一 个 重要 特性 。Tableau 提供 了 友好 的 可 视 化 界面 ,用 户 通 过 单 击 
鼠标 和 简单 拖 放 , 就 可 以 迅速 创建 出 智能 、 精 美 、 直 观 和 具有 强 交 互 性 的 报表 和 仪表 盘 。 

Tableau 的 简单 易 用 性 具体 体现 在 以 下 两 个 方面 。 

(1) 易学 。 对 使 用 者 不 要 求 IT 背景 ,也 不 要 求 统计 知识 ,只 通过 拖 放 和 单 击 ( 单 选 ) 
的 方式 就 可 以 创建 出 精美 的 交互 式 仪表 盘 。 帮 助 用 户 迅 速 发 现 数据 中 的 异常 点 ,对 异常 
点 进行 明细 钻 取 ,还 可 以 实现 异常 点 的 深入 分 析 ,定位 异常 原因 。 

(2) 操作 极其 简单 。 对 于 传统 BI. 业 务 人 员 和 管理 人 员 主 要 依赖 IT 人 员 定 制 数据 报 
表 和 仪表 盘 ,并且 需要 花费 大 量 时 间 与 IT 人 员 沟 通 需 求 . 设 计 报表 样式 ,而 只 有 少量 时 
间 真 正 用 于 数据 分 析 。Tableau 具有 友好 上 且 直 观 的 拖 放 界面 ,操作 上 简单 如 Excel 数据 透 
视 表 ,IT 人 员 只 需 开 放 数 据 权限 ,业务 人 员 或 管理 人 员 可 以 连接 数据 源 自 己 来 做 分 析 。 
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3. 可 连接 多 种 数据 源 , 轻 松 实 现 数据 融合 


在 很 多 情况 下 ,用 户 想 要 展示 的 信息 分 散在 多 个 数据 源 中 ,有 的 存在 于 文件 中 ,有 的 
可 能 存放 在 数据 库 服务 器 上 。Tableau 允许 从 多 个 数据 源 访问 数据 ,包括 带 分 隔 符 的 文 
本 文件 .Excel 文件 .SQL 数据 库 .Oracle 数据 库 和 多 维 数据 库 等 。Tableau 也 允许 用 户 
查看 多 个 数据 源 , 在 不 同 的 数据 源 间 来 回 切换 分 析 , 并 允许 用 户 结合 使 用 多 个 不 同 数 
据 源 。 

此 外 ,Tableau 还 允许 在 使 用 关系 数据 库 或 文本 文件 时 ,通过 创建 连接 (支持 多 种 不 
同 连 接 类 型 ,如 左 侧 连接 , 右 侧 连接 和 内 部 连接 等 ) 来 组 合 多 个 表 或 文件 中 存在 的 数据 ,以 
允许 分 析 相 互 有 关系 的 数据 。 


4 高 效 接口 集成 ,具有 良好 可 扩展 性 ,提升 数据 分 析 能 力 


Tableau 提供 多 种 应 用 编程 接口 ,包括 数据 提取 、 页 面 集成 和 高 级 数据 分 析 等 ,具体 
包括 以 下 几 种 。 

(1) 数据 提取 API。Tableau 可 以 连接 使 用 多 种 格式 数据 源 ,但 由 于 业务 的 复杂 性 ， 
数据 源 的 格式 多 种 多 样 ,Tableau 所 支持 的 数据 源 格式 不 可 能 面面俱到 。 为 此 ,Tableau 
提供 了 数据 提取 API, 使 用 它们 可 以 在 C、C++ 、Java 或 Python 中 创建 用 于 访问 和 处 理 数 
据 的 程序 ,然后 使 用 这 样 的 程序 创建 Tableau 数据 提取 (. tde) 文 件 。 

(2) JavaScript API。 通 过 JavaScript API, 可 以 把 通过 Tableau 制作 的 报表 和 仪表 
盘 嵌 入 到 已 有 的 企业 信息 化 系统 或 企业 商务 智能 平台 中 ,实现 与 页 面 和 交互 的 集成 。 

(3) 与 数据 分 析 工 具 R 的 集成 接口 。R 是 一 种 用 于 统计 分 析 和 预测 建 模 分 析 的 开源 
软件 编程 语言 和 软件 环境 ,具有 非常 强大 的 数据 处 理 , 统 计 分 析 和 预测 建 模 能 力 。 
Tableau 支持 与 R 的 脚本 集成 ,大 大 提升 了 Tableau 在 数据 处 理 和 高 级 分 析 方 面 的 能 力 。 
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Tableau 的 产品 线 很 丰富 ,不 仅 包括 制作 报表 、 视 图 和 仪表 板 的 桌面 设计 和 分 析 工 具 
Tableau Desktop ,还 包括 适用 于 企业 部 署 的 Tableau Server 产品 ,适用 于 网 页 上 创建 和 
分 享 数据 可 视 化 内 容 的 免费 服务 Tableau Public 产品 等 。 


9.2.1 Tableau Desktop 


Tableau Desktop( 桌 面 ) 是 设计 和 创建 美观 的 视图 与 仪表 板 、 实 现 快捷 数据 分 析 功 能 
的 桌面 分 析 工 具 , 它 能 帮助 用 户 生动 地 分 析 实 际 存在 的 任何 结构 化 数据 ,以 快速 生成 美观 
的 图 表 .坐标 图 、 仪 表盘 与 报告 。 利 用 Tableau 简便 的 拖 放 式 界面 ,用 户 可 以 自 定义 视图 、 
布局 形状、 颜色 等 ,帮助 展现 自己 的 数据 视角 。 

Tableau Desktop 适用 于 多 种 数据 文件 与 数据 库 , 良 好 的 数据 可 扩展 性 ,不 受 限 于 所 
处 理 数据 的 大 小 ,将 数据 分 析 变 得 轻而易举 。 

Tableau Desktop 包括 个 人 版 (Tableau Desktop Personal) 和 专业 版 (Tableau 
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Desktop Professional) 两 个 版 本 ,支持 Windows 和 Mac 操作 系统 。 

Tableau Desktop 个 人 版 仅 允 许 连 接 到 文件 和 本 地 数据 源 , 分 析 成 果 可 以 发 布 为 图 
片 .PDF 和 Tableau Reader 等 格式 ;而 Tableau 专业 版 除了 具备 个 人 版 的 全 部 功能 外 , 支 
持 的 数据 源 更 加 丰富 ,能 够 连接 到 几乎 所 有 格式 的 数据 和 数据 库 系统 ,包括 以 ODBC 方 
式 新 建 数据 源 库 , 分 析 成 果 还 可 以 发 布 到 企业 或 个 人 的 Tableau Server (服务 器 )、 
Tableau Online Server( 在 线 服务 器 ) 和 Tableau Public Server( 公 共 服 务 器 ) 上 ,实现 移动 
办 公 。 因 此 ,专业 版 比 个 人 版 更 加 通用 。 


9.2.2 Tableau Server 


Tableau Server( 服 务 器 ) 是 一 款 商 业 智能 应 用 程序 ,用 于 学 习 和 使 用 基于 浏览 器 的 数 
据 分 析 ,发 布 和 管理 Tableau Desktop 程序 制作 的 报表 ,也 可 以 发 布 和 管理 数据 源 , 如 自 
动 刷 新 发 布 到 服务 器 上 的 数据 提取 。Tableau Server 基于 浏览 器 的 分 析 技 术 ,非常 适合 
于 企业 范围 内 的 部 署 , 当 工 作 簿 做 好 并 发 布 到 Tableau Server 上 后 ,用 户 可 以 通过 浏览 器 
或 移动 终端 设备 ,查看 工作 短 的 内 容 并 与 之 交互 。 

Tableau Server 可 控制 对 数据 连接 的 访问 权限 ,并 允许 针对 工作 德 、 仪 表 板 甚至 用 户 
设置 来 设置 不 同安 全 级 别 的 访问 权限 。 通 过 Tableau Server 提供 的 访问 接口 ,用 户 可 以 
搜索 和 组 织 工作 短 , 还 可 以 在 仪表 板 上 添加 批注 ,与 同事 分 享 数据 见解 ,实现 在 线 互 动 。 
利用 Tableau Server 提供 的 订阅 功能 , 当 人 允许 访问 的 工作 短 版 本 有 更 新 时 ,用 户 可 以 接收 
到 邮件 通知 。 

Tableau Server 使 得 Tableau Desktop 中 的 交互 式 数据 可 视 化 内 容 、 仪 表盘 、 报 告 与 
工作 德 的 共享 变 得 迅速 简便 。 利 用 企业 级 的 安全 性 与 性 能 来 支持 大 型 部 署 。 此 外 ,提取 
选项 帮助 用 户 管理 自己 的 关键 业务 数据 库 上 的 负载 。 

用 户 可 以 通过 Web 浏览 器 来 发 布 与 合作 ,或 者 将 Tableau 视图 做 入 其 他 Web 应 用 
程序 中 。 企 业 用 户 可 以 在 现 有 的 IT 基础 设施 内 完成 报告 的 生成 。 拥 有 Tableau 
Interactor( 交 互 器 ) 许 可 证 的 用 户 可 以 交互 .过 滤 、 排 序 与 自 定义 视图 。 拥 有 Tableau 
Viewer( 浏 览 器 ) 许 可 证 的 用 户 可 以 查看 与 监视 发 布 的 视图 。 


9.2.3 Tableau Online 


Tableau Online( 在 线 ) 针 对 云 分 析 而 建立 ,是 Tableau Server 的 一 种 托管 版 本 ,可 以 
为 用 户 省 去 硬件 部 署 、 维 护 及 软件 安装 的 时 间 与 成 本 ,提供 的 功能 与 Tableau Server 没有 
区 别 , 按 每 人 每 年 的 方式 付费 使 用 。 


9.2.4 Tableau Mobile 


Tableau Mobile( 移 动 ) 是 基于 iOS 和 Android 平台 移动 终端 的 应 用 程序 。 用 户 可 通 
过 iPad、Android 设备 或 移动 浏览 器 ,来 查看 发 布 到 Tableau Server 或 Tableau Online 上 
的 工作 短 , 并 可 进行 简单 的 编辑 和 导出 操作 。 
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9.2.5 Tableau Public 


Tableau Public( 公 共 ) 是 一 款 免 费 的 桌面 应 用 程序 ,用 户 可 以 连接 Tableau Public 服 
务 器 上 的 数据 ,设计 和 创建 自己 的 工作 表 、 仪 表 板 和 工作 短 , 并 把 成 果 保 存 到 大 众 皆 可 访 
问 的 Tableau Public 服务 器 上 (不 可 以 把 成 果 保 存 到 本 地 计算 机 中 )。Tableau Public 使 
用 的 数据 和 创建 的 工作 短 都 是 公开 的 ,任何 人 都 可 以 与 其 互动 并 可 随意 下 载 ,还 可 以 根据 
你 的 数据 创建 自己 的 工作 短 。 


9.2.6 Tableau Reader 


Tableau Reader( 阅 读 器 ) 是 免费 的 桌面 应 用 软件 ,可 以 用 来 帮助 用 户 查 看 内 置 于 
Tableau Desktop 的 分 析 视 角 与 可 视 化 内 容 , 和 团队 与 工作 组 分 享 你 的 分 析 观 点 。 

Tableau Desktop 用 户 创建 了 交互 式 数 据 可 视 化 内 容 并 发 布 为 工作 簿 打包 文件 
(. twbx)。 利 用 阅读 器 ,同事 们 可 以 使 用 按 过 滤 、 排 序 以 及 调查 得 到 的 数据 结果 进行 交 
流 , 将 数据 可 视 化 .数据 分 析 与 数据 整合 的 优点 延伸 到 团队 与 工作 组 。 用 户 也 可 以 与 工作 
短 中 的 视图 和 仪表 板 进 行 交 互 操作 ,如 筛选 .排序 .向 下 钻 取 和 查看 数据 明细 等 。 打 包工 
作 短 文件 可 以 从 Tableau Public 服务 器 下 载 。Tableau Reader 不 能 创建 工作 表 和 仪表 
板 ,也 无 法 改变 工作 短 的 设计 和 布局 。 

利用 Tableau Public 连接 数据 时 ,对 数据 源 、 数 据 文件 大 小 和 长 度 都 有 一 定 限制 : 仅 包 
括 Excel、Access 和 多 种 文本 文件 格式 ,对 单个 数据 文件 的 行 数 限制 为 10 万 行 ,对 数据 的 存 
储 空 间 限 定 在 50MB 以 内 。 此 外 ,Tableau Public Premium 是 Tableau Public 的 高 级 产品 , 主 
要 提供 给 某 些 组 织 使 用 , 它 提供 了 更 大 的 数据 处 理 能 力 和 人 允许 隐藏 底层 数据 的 功能 。 
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在 网 上 搜索 并 登录 Tableau 中 文 简体 官方 网 站 (www. tableau. com/zh-cn) ,指向 “ 产 
品 ” 菜 单项 , 单 击 选择 Tableau Desktop 选项 ,可 打开 Tableau Desktop 产品 页 ,从 中 单 击 
“免费 试用 ”项 ,可 在 此 下 载 Tableau Desktop 完全 版 ,安装 后 可 获得 14 天 免费 的 使 用 
权限 。 

安装 Tableau 软件 应 注意 应 用 环境 的 系统 配置 。 以 Tableau 9. 3 为 例 ,该 软件 必须 
运行 在 Windows Vista SP2、Windows Server 2008 SP2 或 更 高 版 本 。 若 操作 系统 版 本 过 
低 , 则 系统 在 安装 时 会 提示 并 退出 安装 。 

双击 下 载 的 Tableau Desktop 安装 软件 ,屏幕 显示 安装 引导 页 如 图 9-4 所 示 。 

查看 阅读 软件 的 产品 “许可 条 款 ”, 选 中 接受 本 许可 协议 , 单 击 “ 安 装 " 按 钮 ,可 在 本 地 
计算 机 上 简单 顺利 地 安装 该 软件 产品 (图 9-5)。 为 配合 这 个 软件 的 学 习 , 请 合理 选择 软 
件 产品 的 安装 时 机 (无 限制 免费 试用 14 天 )。 

安装 后 ,安装 软件 会 在 桌面 上 留 下 启动 Tableau 软件 的 快捷 图 标 。 双 击 该 图 标 , 启 动 
Tableau Desktop 软件 (图 9-6)。 第 一 次 使 用 Tableau, 即 使 是 试用 ,也 需要 进行 用 户 注册 
(图 9-7) ,填写 各 项 ,然后 单 击 “ 注 册 ” 按 钮 。 
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图 9-7 Tableau 用 户 注册 
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卖 ”按钮 ,或 者 单 击 “ 立 即 开始 试用 ”按钮 ,开始 试用 学 习 。 
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在 进入 Tableau 或 打开 Tableau 但 没有 指定 工作 德 时 ,会 显示 “开始 页 面 ”( 
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图 9-8 Tableau 开始 页 面 
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加 9-8)， 


指名 惫 ”二 二 构思 可 俩 机 六 而 


其 中 包含 了 最 近 使 用 的 工作 短 、 已 保存 的 数据 连接 ` 示 例 工作 短 和 其 他 一 些 人 门 资源 ,这 
些 内 容 将 帮助 初学 者 快速 入 门 。 

Tableau 工作 区 是 制作 视图 、 设 计 仪表 板 、 生 成 故事 发布 和 共享 工作 德 的 工作 环境 ， 
包括 工作 表 工 作 区 仪表 板 工作 区 和 故事 工作 区 ,也 包括 公共 菜单 栏 和 工具 栏 。 

(1) 工作 表 (Work Sheet): 又 称 为 视图 (Visualization), 是 可 视 化 分 析 的 最 基本 
单元 。 

(2) 仪表 板 (Dashboard) : 是 多 个 工作 表 和 一 些 对 象 (如 图 像 、 文 本 、 网 页 和 空白 等 
的 组 合 ,可 以 按照 一 定 方式 对 其 进行 组 织 和 布局 ,以 便 揭 示 数 据 关 系 和 内 涵 。 

(3) 故事 (Story) : 是 按 顺 序 排列 的 工作 表 或 仪表 板 的 集合 ,故事 中 各 个 单独 的 工作 
表 或 仪表 板 称 为 “故事 点 ”。 可 以 使 用 创建 的 故事 ,向 用 户 叙 述 某 些 事实 ,或 者 以 故事 方式 
揭示 各 种 事实 之 间 的 上 下 文 或 事件 发 展 的 关系 。 

(4) 工作 簿 CWorkbook): 包含 一 个 或 多 个 工作 表 , 以 及 一 个 或 多 个 仪表 板 和 故事 ， 
是 用 户 在 Tableau 中 工作 成 果 的 容器 。 用 户 可 以 把 工作 成 果 组 织 、 保 存 或 发 布 为 工作 短 ， 
以 便 共 享 和 存储 。 

为 开始 构建 视图 并 分 析 ,要 进入 "新 建 数据 源 ” 页 面 , 将 Tableau 连接 到 一 个 或 多 个 数 
据 源 。 


9.4.1 工作 表 工 作 区 


工作 表 工 作 区 (图 9-9) 包 含 菜单 工具 栏 数据 窗口 、 含 有 功能 区 和 图 例 的 卡 ,可 以 在 
工作 表 工 作 区 中 通过 将 字段 拖 放 到 功能 区 上 来 生成 数据 视图 (工作 表 工 作 区 仅 用 于 创建 
单个 视图 )。 在 Tableau 中 连接 数据 之 后 , 即 可 进入 工作 表 工 作 区 。 












































图 9-9 Tanleau 工作 表 工 作 区 


工作 表 工 作 区 中 的 主要 部 件 如 下 。 
(1) 数据 窗口 。 数 据 窗口 位 于 工作 表 工 作 区 的 左 侧 ,可 以 通过 单 击 数据 窗口 右上 和 角 
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的 “最 小 化 ”按钮 来 隐藏 和 显示 数据 窗口 .这样 数 据 窗口 会 折 释 到 工作 区 底部 ,再 次 单 击 
“最 小 化 ?按钮 可 显示 数据 窗口 。 通 过 单 击 ,然后 在 文本 框 中 输入 内 容 , 可 在 数据 窗口 中 搜 
索 字 段 。 通 过 单 击 , 可 以 查看 数据 。 数 据 窗 口 由 数据 源 窗口 、 维 度 窗口 .度量 窗口 . 集 窗口 
和 参数 窗口 等 组 成 。 

(2) 数据 源 窗 口 : 包括 当前 使 用 的 数据 源 及 其 他 可 用 的 数据 源 。 

(3) 维度 窗口 : 包含 诸如 文本 和 日 期 等 类 别 数据 的 字段 。 

(4) 度量 窗口 : 包含 可 以 聚合 的 数字 的 字段 。 

(5) 集 窗口 : 定义 的 对 象 数据 的 子 集 , 只 有 创建 了 集 ,此 窗口 才 可 见 。 

(6) 参数 窗口 : 可 蔡 换 计算 字段 和 筛选 器 中 的 常量 值 的 动态 占 位 符 , 只 有 创建 了 参 
数 ,此 窗口 才 可 见 。 

(7) 分 析 窗 口 : 将 菜单 中 常用 的 分 析 功 能 进行 了 整合 ,方便 快速 使 用 ,主要 包括 汇 
总 、 模 型 和 自 定义 3 个 窗口 。 

(8) 汇总 窗口 : 提供 常用 的 参考 线 、 参 考区 间 及 其 他 分 析 功 能 ,包括 常量 线 、. 平 均线 、 
含 四 分 位 点 的 中 值 和 合计 等 ,可 直接 拖 放 到 视图 中 应 用 。 

(9) 模型 窗口 : 提供 常用 的 分 析 模型 ,包括 平均 值 .趋势 线 和 预测 等 。 

(10) 自 定义 窗口 : 提供 参考 线 、 参 考区 间 、 分 布 区 间 和 盒 须 图 的 快捷 使 用 。 

(11) 页 面 卡 : 可 在 此 功能 区 上 基于 某 个 维度 的 成 员 或 某 个 度量 的 值 将 一 个 视图 拆 
分 为 多 个 视图 。 

(12) 筛选 器 卡 : 指定 要 包含 和 排除 的 数据 ,所 有 经 过 筛选 的 字段 都 显示 在 筛选 器 
基业 

(13) 标记 卡 : 控制 视图 中 的 标记 属性 ,包括 一 个 标记 类 型 选择 器 ,可 以 在 其 中 指定 
标记 类 型 (例如 条 、 线 .区 域 等 ;。 此 外 ,还 包含 颜色 、 大 小 、 标 签 .文本 、 详 细 信 息 、 工 具 提 
示 、 形 状 、 路 径 和 角度 等 控件 ,这 些 控 件 的 可 用 性 取决 于 视图 中 的 字段 和 标记 类 型 。 
(14) 颜色 图 例 : 包含 视图 中 颜色 的 图 例 , 仅 当 颜 色 上 至 少 有 一 个 字段 时 才 可 用 。 同 
理 ,也 可 以 添加 形状 图 例 . 尺 十 图例 和 地 图 图 例 。 
(15) 行 功能 区 和 列 功能 区 : 行 功能 区 用 于 创建 行 , 列 功能 区 用 于 创建 列 ,可 以 将 任 
意 数 量 的 字段 放置 在 这 两 个 功能 区 上 。 
(16) 工作 表 视 图 区 : 创建 和 显示 视图 的 区 域 , 一 个 视图 就 是 行 和 列 的 集合 ,由 标题 、 
轴 、 区 、 单 元 格 标记 等 组 件 组 成 。 除 这 些 内 容 外 .还 可 以 选择 显示 标题 说明、 字段 标签 、 
摘要 和 图 例 等 。 
(17) 智能 显示 : 通过 智能 显示 ,可 以 基于 视图 中 已 经 使 用 的 字段 以 及 在 数据 窗口 中 
选择 的 任何 字段 来 创建 视图 。Tableau 会 自动 评估 选 定 的 字段 ,然后 在 智能 显示 中 突出 
显示 与 数据 最 相符 的 可 视 化 图 表 类 型 。 
(18) 标签 栏 : 显示 已 经 被 创建 的 工作 表 、 仪 表 板 和 故事 的 标签 ,或 者 通过 标签 栏 上 
的 “新 建 工 作 表 ”图 标 创建 新 工作 表 , 或 者 通过 标签 栏 上 的 新 建 仪表 板 图 标 创 建新 仪 
表 板 。 

(19) 状态 栏 : 位 于 Tableau 工作 簿 的 底部 。 它 显示 菜单 项 说 明 以 及 有 关 当 前 视图 的 
信息 ,可 以 通过 选择 “窗口 ”显示 状态 栏 " 来 隐藏 状态 栏 。 有 时 Tableau 会 在 状态 栏 的 
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右 下 角 显 示警 告 图 标 , 以 指示 错误 或 警告 。 
9.4.2 仪表 板 工 作 区 

仪表 板 工作 区 使 用 布局 容器 把 工作 表 和 一 些 如 图 片 文本、 网 页 类 型 的 对 象 按 一 定 的 
布局 方式 组 织 在 一 起 。 在 工作 区 页 面 单 击 “ 新 建 仪表 板 " 图 标 ,或 者 选择 “仪表 板 ”~“ 新 建 
仪表 板 ”, 打 开 仪表 板 工作 区 ,仪表 板 窗口 将 蔡 换 工作 表 左 侧 的 数据 窗口 。 图 9-10 显示 了 
Tableau 中 的 仪表 板 工 作 区 。 
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图 9-10 ”Tanleau 仪表 板 工作 区 


仪表 板 工 作 区 中 的 主要 部 件 如 下 : 

(1) 仪表 板 窗口 。 列 出 了 在 当前 工作 短 中 创建 的 所 有 工作 表 , 可 以 选中 工作 表 并 将 
其 从 仪表 板 窗口 拖 至 右 侧 的 仪表 板 区 域 中 ,一 个 灰色 阴影 区 域 将 指示 出 可 以 放置 该 工作 
表 的 各 个 位 置 。 在 将 工作 表 添 加 至 仪表 板 后 ,仪表 板 窗口 中 会 用 复 选 标 记 来 标记 该 工 
作 表 。 

(2) 仪表 板 对 象 窗口 。 包 含 仪 表 板 支 持 的 对 象 ,如 文本 、 图 像 、 网 页 和 空白 区 域 。 从 
仪表 板 窗口 拖 放 所 需 对 象 至 右 侧 的 仪表 板 窗口 中 ,可 以 添加 仪表 板 对 象 。 

(3) 平 铺 和 浮动 。 决 定 了 工作 表 和 对 象 被 拖 放 到 仪表 板 后 的 效果 和 布局 方式 。 默 认 
情况 下 ,仪表 板 使 用 平 铺 布局 ,这 意味 着 每 个 工作 表 和 对 象 都 排列 到 一 个 分 层 网 格 中 ,可 
以 将 布局 更 改 为 浮动 以 允许 视图 和 对 象 重 又 。 

(4) 布局 窗口 。 以 树 形 结构 显示 当前 仪表 板 中 用 到 的 所 有 工作 表 及 对 象 的 布局 
方式 。 

(5) 仪表 板 设置 窗口 。 设 置 创建 的 仪表 板 的 大 小 ,也 可 以 设置 是 否 显示 仪表 板 标 题 。 
仪表 板 的 大 小 可 以 从 预定 义 的 大 小 中 选择 一 个 ,或 以 像素 为 单位 设置 自 定义 大 小 。 

(6) 仪表 板 视图 区 。 创 建 和 调整 仪表 板 的 工作 区 域 , 可 以 添加 工作 表 及 各 类 对 象 。 


厂 数 所 可 锦 化 


9.4.3 故事 工作 区 


在 Tableau 中 一 般 将 故事 用 作 演 示 工 具 , 按 顺序 排列 视图 或 仪表 板 。 选 择 “ 故 事 ” 一 
“新 建 故 事 ”, 或 者 单 击 工 具 栏 上 的 “新 建 工作 表 ” 按 钮 ,然后 选择 “新 建 故事 ”"。 故 事 工 作 区 
与 创建 工作 表 和 仪表 板 的 工作 区 有 很 大 区 别 , 如 图 9-11 所 示 。 
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图 9-11 Tanleau 故事 工作 区 


故事 工作 区 中 的 主要 部 件 如 下 : 

(1) 仪表 板 和 工作 表 窗 口 。 显 示 在 当前 工作 簿 中 创建 的 视图 和 仪表 板 的 列表 ,将 其 
中 的 一 个 视图 或 仪表 板 拖 到 故事 区 域 (导航 框 下 方 ), 即 可 创建 故事 点 , 单 击 可 快速 跳 转 至 
所 在 的 视图 或 仪表 板 。 

(2) 说 明 。 说 明 是 可 以 添加 到 故事 点 中 的 一 种 特殊 类 型 的 注释 。 若 要 添加 说 明 ， 
只 需 双 击 此 处 。 可 以 向 一 个 故事 点 添加 任何 数量 的 说 明 ,放置 在 故事 中 的 任意 所 需 位 
置 上 。 

(3) 导航 器 设置 。 设 置 是 否 显示 导航 框 中 的 后退/ 前进” 按钮 。 

(4) 故事 设置 窗口 。 设 置 创建 的 故事 的 大 小 ,也 可 以 设置 是 否 显示 故事 标题 。 故 事 
的 大 小 可 以 从 预定 义 的 大 小 中 选择 一 个 ,或 以 像素 为 单位 设置 自 定义 大 小 。 

(5) 导航 框 。 用 户 进行 故事 点 导航 的 窗口 ,可 以 利用 左 侧 或 右 侧 的 按钮 顺序 切换 故 
事 点 ,也 可 以 直接 单 击 故事 点 进行 切换 。 

(6) 新 空白 点 按钮 。 单 击 此 按钮 可 以 创建 新 故事 点 ,使 其 与 原来 的 故事 点 有 所 不 同 。 

(7) 复制 按钮 。 可 以 将 当前 故事 点 用 作 新 故事 点 的 起 点 。 

(8) 说 明 框 。 是 通过 说 明 为 故事 点 或 者 故事 点 中 的 视图 或 仪表 板 添 加 的 注释 文 
本 框 。 

(9) 故事 视图 区 。 创 建 故事 的 工作 区 域 ,可 以 添加 工作 表 、 仪 表 板 或 者 说 明 框 对 象 。 
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95 菜单 栏 和 工具 栏 


除了 工作 表 、 仪 表 板 和 故事 工作 区 ,Tableau 工作 区 环境 还 包括 公共 的 菜单 栏 和 工具 
栏 。 无 论 在 哪个 工作 区 环境 下 ,菜单 栏 和 工具 栏 都 存在 于 工作 区 的 顶部 。 


9.5.1 菜单 栏 


菜单 栏 包括 文件 数据 工作 表 和 仪表 板 等 菜单 ,每 个 菜单 下 都 包含 很 多 菜单 
(1) 文件 菜单 。 包 括 打 开 、 保 存 和 另存 为 等 功能 。 其 中 最 常用 的 功能 是 打印 为 
PDF, 它 允许 把 工作 表 或 仪表 板 导 出 为 PDF。“ 导 出 打包 工作 簿 ”选项 允许 把 当前 的 工 
作 短 以 打包 形式 导出 。 如 果 记 不 清文 件 存储 位 置 ,或 者 想 要 改变 文件 的 默认 存储 位 
置 ,可 以 使 用 文件 菜单 中 的 “存储 库 位 置 ?选项 来 查看 文件 存储 位 置 和 改变 文件 的 默认 
存储 位 置 。 

(2) 数据 菜单 。 其 中 的 “粘贴 数据 ?选项 非常 方便 ,如 果 在 网 页 上 发 现 了 一 些 Tableau 
的 数据 ,并 且 想 要 使 用 Tableau 进行 分 析 , 可 以 从 网 页 上 复制 下 来 ,然后 使 用 此 选项 把 数 
据 导 入 到 Tableau 中 进行 分 析 。 一 旦 数据 被 粘贴 ,Tableau 将 从 Windows 粘贴 板 中 复制 
这 些 数 据 , 并 在 数据 窗口 中 增加 一 个 数据 源 。 

“编辑 关系 ”选项 在 数据 融合 时 使 用 , 它 可 以 用 于 创建 或 修改 当前 数据 源 关 联 关系 ,并 
且 如 果 两 个 不 同 数据 源 中 的 字段 名 不 相同 时 ,此 选项 非常 有 用 , 它 允 许 明 确 地 定义 相关 的 
字段 。 

(3) 工作 表 菜 单 。 其 中 的 常用 功能 是 “导出 ”选项 和 “复制 ”选项 。“ 导 出 ”选项 允许 把 
工作 表 导 出 为 一 个 图 像 、 一 个 Excel 交叉 表 或 者 Access 数据 库 文件 (. mdb) ;而 使 用 “ 复 
制 ” 选 项 中 的 “复制 为 交叉 表 ” 选 项 会 创建 一 个 当前 工作 表 的 交叉 表 版 本 ,并 把 它 存 放 在 一 
个 新 的 工作 表 中 。 

(4) 仪表 板 菜单 。 此 菜单 中 的 选项 只 有 在 仪表 板 工作 区 环境 下 可 用 。 

(5) 故事 菜单 。 此 菜单 中 的 选项 只 有 在 故事 工作 区 环境 下 可 用 ,可 以 利用 其 中 的 选 
项 新 建 故 事 , 利 用 “设置 格式 ”选项 设置 故事 的 背景 .标题 和 说 明 , 还 可 以 利用 “导出 图 像 ” 
选项 把 当前 故事 导出 为 图 像 。 

(6) 分 析 菜 单 。 在 熟悉 了 Tableau 的 基本 视图 创建 方法 后 ,可 以 使 用 分 析 莱 单 中 的 
一 些 选项 来 创建 高 级 视图 ,或 者 利用 它们 来 调整 Tableau 中 的 一 些 缺 省 行为 ,如 利用 其 中 
的 “聚合 度量 ”选项 来 控制 对 字段 的 聚合 或 解 聚 ,也 可 以 利用 “创建 计算 字段 "和 “编辑 计算 
字段 ”选项 创建 当前 数据 源 中 不 存在 的 字段 。 分 析 莱 单 在 故事 工作 区 环境 下 不 可 见 ,在 仪 
表 板 工作 区 环境 下 仅 部 分 功能 可 用 。 

(7) 地 图 菜单 。 其 中 的 “地 图 ”选项 里 的 “样式 ”可 以 更 改 地 图 颜色 配色 方案 ,如 选择 
普通 、 灰 色 或 者 黑色 地 图 样式 ,也 可 以 使 用 “地 图 ”选项 中 的 “ 冲 蚀 ” 滑 块 控制 背景 地 图 的 强 
度 或 亮度 , 滑 块 向 右 移 得 越 远 , 地 图 背景 就 越 模 糊 。 地 图 菜单 中 的 “地 理 编码 ”选项 可 以 导 
入 自 定义 地 理 编码 文件 ,绘制 自 定义 地 图 。 
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(8) 设置 格式 菜单 。 设 置 格式 菜单 很 少 使 用 ,因为 在 视图 或 仪表 板 上 的 某 些 特定 区 
域 右 击 可 以 更 快捷 地 调整 格式 。 但 有 些 设 置 格式 菜单 中 的 选项 通过 快捷 键 方式 无 法 实 
现 , 例 如 想 要 修改 一 个 交叉 表 中 单元 格 的 尺寸 ,只 能 利用 “设置 格式 ”菜单 中 的 “单元 格 大 
小 ”选项 来 调整 ;如 果 不 喜 欢 当 前 工作 德 的 默认 主题 风格 ,只 能 利用 “工作 簿 主题 "选项 来 
切换 至 其 他 两 个 子 选 项 (“现代 ”或 “古典 ”)。 

(9) 服务 器 菜单 。 如 果 想 要 把 工作 成 果 发 布 到 大 众 皆 可 访问 的 公共 服务 器 Tableau 
Public 上 ,或 者 从 上 面 下 载 或 打开 工作 德 ,可 以 使 用 服务 器 菜单 中 的 Tableau Public 选 
项 。 如 果 需 要 登录 到 Tableau 服务 器 ,或 者 需要 把 工作 成 果 发 布 到 Tableau 服务 器 上 , 需 
要 使 用 服务 器 菜单 中 的 “登录 ”选项 。 

(10) 窗口 菜单 。 如 果 工 作 簿 很 大 ,其 中 包含 了 很 多 工作 表 , 并 且 想 要 把 其 中 某 个 工 
作 表 共享 给 别人 ,可 以 使 用 窗口 菜单 中 的 “书签 ”选项 创建 一 个 书签 文件 (. tbm) ,还 可 以 
通过 窗口 菜单 中 的 其 他 选项 ,来 决定 显示 或 隐藏 工具 栏 .状态 栏 和 边 条 。 

(11) 帮助 菜单 。 最 右 侧 的 帮助 菜单 可 以 让 用 户 直接 连接 到 Tableau 的 在 线 帮助 文 
档 、 培 训 视 频 、 示 例 工作 簿 和 示例 库 , 也 可 以 设置 工作 区 语言 。 此 外 ,如 果 加 载 仪 表 板 时 比 
较 缓慢 ,可 以 使 用 “设置 和 性 能 ”选项 中 的 子 选项 “启动 性 能 记录 ”激活 Tableau 的 性 能 分 
析 工 具 , 优 化 加 载 过 程 。 


9.5.2 工具 栏 


工具 栏 包含 “新 建 数 据 源 ” “新建 工作 表 ” 和 “保存 ”等 命令 。 另 外 ,该 工具 栏 还 包含 
“排序 ”“ 分 组 ”和 “突出 显示 ”等 分 析 和 导航 工具 。 通 过 选择 “窗口 >“ 显示 工具 栏 * 可 隐 
藏 或 显示 工具 栏 。 工 具 栏 有 助 于 快速 访问 常用 工具 和 操作 ,其 中 有 些 命令 仅 对 工作 表 工 
作 区 有 效 , 有 些 命令 仅 对 仪表 板 工 作 区 有 效 , 有 些 命令 仅 对 故事 工作 区 有 效 。 
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可 以 使 用 多 种 不 同 的 Tableau 文件 类 型 ,如 工作 短 .打包 工作 短 .数据 提取 .数据 源 和 
书签 等 ,来 保存 和 共享 工作 成 果 和 数据 源 ( 表 9-3) 。 

下 面 对 常 用 的 文件 类 型 分 别 进行 介绍 。 

(1) Tableau 工作 德 (. twb) : 将 所 有 工作 表 及 其 连接 信息 保存 在 工作 短文 件 中 ,不 包 
括 数据 。 

(2) 打包 工作 短 (. twbx) : 打包 工作 德 是 一 个 zip 文件 ,保存 所 有 工作 表 、 连 接 信息 以 
及 任何 本 地 资源 (如 本 地 文件 数据 源 .背景 图 片 、 自 定义 地 理 编码 等 ) 。 这 种 格式 最 适合 对 
工作 进行 打包 以 便 与 不 能 访问 该 数据 的 其 他 人 共享 。 

(3) Tableau 数据 源 (. tds) : Tableau 数据 源 文件 具有 . tds 文件 扩展 名 。 数 据 源 文 
件 是 快速 连接 经 常 使 用 的 数据 源 的 快捷 方式 。 数 据 源 文件 不 包含 实际 数据 ,只 包含 新 
建 数据 源 所 必需 的 信息 以 及 在 数据 窗口 中 所 做 的 修改 ,例如 默认 属性 ,计算 字段 ,组 、 
集 等 。 
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表 9-3 Tableau 文件 类 型 表 











文件 类 型 大 小 使 用 场景 内 容 
Tableau 工作 德 Tableau 默认 保存 工 
Cb 小 作 的 方式 可 视 化 内 容 ,但 无 源 数据 
Tableau 打包 工 与 无 法 访问 数据 源 的 
作 筹 (. twbx) 可 能 非常 大 用 户 分 享 工作 创建 工作 短 的 所 有 信息 和 资源 
Tableau 数据 源 包含 新 建 数据 源 所 需 的 信息 ,如 数据 源 类 型 
Catds) 极 小 频繁 使 用 的 数据 源 和 数据 源 链接 信息 ,数据 源 上 的 字段 属性 以 


及 在 数据 源 上 创建 的 组 、 集 和 计算 字段 等 
包括 数据 源 (. tds) 文 件 中 的 所 用 信息 以 及 任 











Tableau 数据 源 | 小 频繁 使 用 的 数据 源 ”| 何 本 地 文件 数据 源 (Excel、 Access、 文 本 和 数 
(. tdsx) 据 提取 ) 

Tableau 书签 。 | 通 肯 很 小“ | 工作 短 间 分 享 工作 表 | 如 果 原始 工作 短 是 一 个 打包 工作 短 , 创 建 的 
Ctbm) 时 使 用 书签 就 包含 可 视 化 内 容 和 书签 

Tableau 数据 提 


可 能 非常 大 | 提高 数据 库 性 能 部 分 或 整个 数据 源 的 一 个 本 地 副本 











取 (. tde) 


(4) Tableau 数据 源 (. tdsx): 如 果 和 连接 的 数据 源 不 是 本 地 数据 源 ,tdsx 文件 与 tds 文 
件 没 有 区 别 。 如 果 连 接 的 数据 源 是 本 地 数据 源 , 数 据 源 (. tdsx) 不 但 包含 数据 源 (. tds) 文 
件 中 的 所 有 信息 ,还 包括 本 地 文件 数据 源 (Excel、Access、 文 本 和 数据 提取 )。 

(5) Tableau 书签 (. tbm) : 书签 包含 单个 工作 表 , 是 快速 分 享 所 做 工作 的 简便 方式 。 

(6) Tableau 数据 提取 (. tde) : Tableau 数据 提取 文件 具有 . tde 文件 扩展 名 。 提 取 
文件 是 部 分 或 整个 数据 源 的 一 个 本 地 副本 ,可 用 于 共享 数据 、 脱 机 工作 和 提高 数据 库 
性 能 。 

这 些 文件 可 保存 在 “我 的 Tableau 存储 库 " 目 录 中 的 关联 文件 夹 中 ,该 目录 是 在 安装 
Tableau 时 在 “我 的 文档 ”文件 夹 中 自动 创建 的 。 工 作文 件 也 可 保存 在 其 他 位 置 , 如 桌面 

上 或 网 络 目录 中 。 


【延伸 阅读 】 
大 数据 可 视 化 专家 : Tableau 


大 数据 时 代 的 到 来 使 人 类 第 一 次 有 机 会 和 条 件 ,在 非常 多 的 领域 和 非常 深入 的 层次 
获得 和 使 用 全 面 数 据 、 完 整数 据 和 系统 数据 ,深入 探索 现实 世界 的 规律 ,获取 过 去 不 可 能 
获取 的 知识 ,得 到 过 去 无 法 企及 的 商机 。Tableau Software 正 是 一 家 做 大 数据 的 公司 ,更 
确切 地 说 是 大 数据 处 理 的 最 后 一 环 一 一 数据 可 视 化 。 

Tableau 成 立 于 2003 年 ,来 自 斯 坦 福 的 三 位 校友 Christian Chabot (首席 执行 官 )、 
Chris Stole( 开 发 总 监 ) 以 及 Pat Hanrahan( 首 席 科 学 家 ) 在 远离 硅谷 的 西雅图 注册 成 立 了 
这 家 公司 ,其 中 Chris Stole 是 计算 机 博士 ,而 Pat Hanrahan 是 皮克斯 动画 工作 室 的 创始 
成 员 之 一 , 曾 负 责 视觉 特效 泻 染 软件 的 开发 ,两 度 获 得 奥斯卡 最 佳 科学 技术 奖 , 至 今 仍 在 
斯 坦 福 担 任教 授 职 位 ,教授 计算 机 图 形 课程 。 三 人 都 对 数据 可 视 化 这 件 事 怀 有 很 大 的 
热情 。 


大 数据 可 希 化 


Tableau 主要 是 面向 企业 数据 提供 可 视 化 服务 ,是 一 家 商业 智能 软件 提供 商 , 企 业 运 
用 Tableau 授权 的 数据 可 视 化 软件 对 数据 进行 处 理 和 展示 ,但 Tableau 的 产品 并 不 仅 限 
于 企业 ,其 他 任何 机 构 乃 至 个 人 都 能 很 好 地 运用 Tableau 的 软件 进行 数据 分 析 工 作 。 数 
据 可 视 化 是 数据 分 析 的 完美 结果 ,让 枯燥 的 数据 以 简单 友好 的 图 表 形 式 展 现 出 来 。 可 以 
说 ,Tableau 在 抢占 一 个 细 分 市 场 , 那 就 是 大 数据 处 理 末 端的 可 视 化 市 场 ,目前 市 场 上 并 
没有 太 多 这 样 的 产品 。 同 时 Tableau 还 为 客户 提供 解决 方案 服务 。 

现在 Tableau 全 球 有 700 多 名 员工 ,客户 超过 12 000 个 ,分 布 在 全 球 100 多 个 国家 ， 
北美 以 外 的 市 场 占 17%6 ,遍及 商务 服务 能源、 电信 、 人 金融 服务 、 互 联网 生命 科学 、 医 疗 保 
健 、 制 造 业 、 媒 体 娱乐 .公共 部 门 、 教 育 、 零 售 等 各 个 行业 。 其 中 既 有 像 联 合 利 华 、 德 勤 、 
UPS、 耐 克 、 杜 邦 、Verizon、T 一 mobile、BBC、 探 索 频 道 、 美 国航 空 、Zynga、 LinkedIn、 
Facebook 雅虎. 革 果 、 可 口 可 乐 等 欧美 知名 企业 ,也 有 美国 联邦 航空 管理 局 美国 陆军 等 
美国 政府 机 构 以 及 康 奈 尔 \ 杜 克 、 牛 津 等 知名 学 府 ,Tableau 在 中 国 市 场 也 有 了 所 开拓 ,中 国 
东方 航空 是 其 重要 客户 。 

Tableau 的 业务 主要 分 为 两 部 分 : 一 是 数据 可 视 化 软件 授权 ,二 是 软件 维护 和 服务 。 

Tableau 目前 有 四 大 软件 产品 : Tableau Desktop、Tableau Server、Tableau Public 以 
及 全 新 的 Tableau Online。 其 中 Tableau Desktop 是 一 款 PC 桌面 操作 系统 上 (只 支持 
Windows 系统 ) 的 数据 可 视 化 分 析 软 件 , 分 个 人 版 和 专业 版 (个 人 版 只 能 导入 Excel, 专 业 
版 可 以 导入 各 种 数据 库 ) ,用 户 可 以 根据 自己 的 需求 选择 不 同 的 版 本 ,当然 价格 也 不 一 样 。 
Tableau Server 则 是 完全 面向 企业 的 商业 智能 应 用 平台 ,基于 企业 服务 器 和 Web 网 页 ， 
用 户 使 用 浏览 器 进行 分 析 和 操作 ,还 可 以 将 数据 发 布 到 Tableau Server 与 同事 进行 协作 ， 
实现 了 可 视 化 的 数据 交互 ,其 根据 企业 中 用 户 数 的 多 少 或 企业 服务 器 CPU 的 数量 来 确 
定 收 费 标准 。Tableau Online 是 Tableau Server 的 软件 , 即 服务 托管 版 本 。 它 让 商业 分 
析 比 以 往 更 加 快速 轻松 。 利 用 Tableau Desktop 发 布 仪表 板 , 然 后 与 同事 、 合 作 伙伴 或 客 
户 共享 。 利 用 云 商业 智能 ,可 以 随时 随地 快速 找到 答案 。 而 Tableau Public 是 完全 免费 
的 ,不 过 用 户 只 能 将 自己 运用 Tableau Public 制作 的 可 视 化 作品 发 布 到 网 络 上 , 即 
Tableau Public 社区 ,而 不 能 保存 在 本 地 ,每 个 Tableau Public 用 户 都 可 以 查看 和 分 享 ,而 
且 Tableau Public 所 能 支持 的 接 入 数据 源 的 类 型 和 大 小 都 有 所 限制 ,所 以 Tableau Public 
更 像 是 Tableau Desktop 的 功能 阁 割 版 和 公共 网 络 版 , 重 在 体验 和 分 享 。 由 于 Tableau 
Desktop 和 Tableau Server 是 其 软件 授权 收入 的 主要 来 源 , 故 下 面 就 只 着 重 介绍 Tableau 
Desktop 和 Tableau Server。 

“所 有 人 都 能 学 会 的 业务 分 析 工 具 ”, 这 是 Tableau 官网 上 对 Tableau Desktop 的 描 
述 。 确 实 ,Tableau Desktop 的 简单 、 易 用 令 人 非常 容易 上 手 , 这 也 是 Tableau 的 最 大 特 
点 ,使 用 者 不 需要 精通 复杂 的 编程 和 统计 原理 ,只 需要 drag and drop 一 一 把 数据 直接 拖 
放 到 工具 簿 中 ,通过 一 些 简 单 的 设置 就 可 以 得 到 自己 想 要 的 数据 可 视 化 图 形 , 这 使 得 即使 
是 不 具备 专业 背景 的 人 也 可 以 创造 出 美观 的 交互 式 图 表 , 从 而 完成 有 价值 的 数据 分 析 。 
所 以 ,Tableau Desktop 的 学 习 成 本 很 低 , 使 用 者 可 以 快速 上 手 , 这 无 疑 对 于 日 渐 追 求 高 效 
率 和 成 本 控制 的 企业 来 说 具有 巨大 的 吸引 力 。 其 特别 适合 于 日 常 工作 中 需要 绘制 大 量 报 
表 、 经 常 进行 数据 分 析 或 需要 制作 精良 的 图 表 以 在 重要 场合 演讲 的 人 。 但 简单 、 易 用 并 没 
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弟 (9 这 ”Tabléay 数 扎 可 物 出 入门 


有 妨碍 Tableau Desktop 拥有 强大 的 性 能 , 它 不 仅 能 完成 基本 的 统计 预测 和 趋势 预测 ,还 
能 实现 数据 源 的 动态 更 新 。 

在 简单 、 易 用 的 同时 ,Tableau Desktop 也 极其 的 高 效 , 其 数据 引擎 的 速度 极 快 ,处 理 
上 亿 行 数据 只 需 几 秒 的 时 间 就 可 以 得 到 结果 ,速度 是 传统 Database Query 的 100 倍 ,用 
其 绘制 报表 的 速度 也 比 传统 的 程序 员 制 作 报表 快 10 倍 以 上 。 

简单 、 易 用 .快速 ,一 方面 是 归功 于 产生 自 斯 坦 福 大 学 的 突破 性 技术 , 身 为 最 早 研究 可 
视 化 技术 的 公司 之 一 ,Tableau 有 一 组 集 复杂 的 计算 机 图 形 学 ,人 机 交互 和 高 性 能 的 数据 
库 系 统 于 一 身 的 跨越 领域 的 技术 ,其 中 最 初 眼 的 莫 过 于 VizQL 可 视 化 查询 语言 和 混合 数 
据 架构 , 正 是 由 于 斯 坦 福 博 士 们 这 些 源源 不 断 的 创新 技术 和 发 展 完善 , 才 得 以 保证 
Tableau Desktop 的 强大 特性 。 另 一 方面 则 在 于 Tableau 专注 于 处 理 的 是 最 简单 的 结构 
化 数据 , 即 那些 已 整理 好 的 数据 一 一 Excel、 数 据 库 等 ,结构 化 的 数据 处 理 在 技术 上 难度 较 
低 , 这 就 使 得 Tableau 有 精力 在 快速 .简单 和 可 视 上 做 出 更 多 改进 (但 这 同时 也 是 
Tableau 的 局 限 所 在 ) 。 

而 且 ,Tableau Desktop 具有 完美 的 数据 整合 能 力 , 可 以 将 两 个 数据 源 整 合 在 同一 层 ， 
甚至 还 可 以 一 个 数据 源 筛 选 为 另 一 个 数据 源 ,并 在 数据 源 中 突出 显示 ,这 种 强大 的 数据 整 
合 能力 具 有 很 大 的 实用 性 。 

Tableau Desktop 还 有 一 项 独 具 特 色 的 数据 可 视 化 技术 ,就 是 嵌入 了 地 图 ,使 用 者 可 
以 用 经 过 自动 地 理 编码 的 地 图 呈现 数据 ,这 对 于 企业 进行 产品 市 场 定 位 、 制 定 营 销 策略 等 
有 非常 大 的 帮助 。 

总 之 ,Tableau 有 一 套 自己 特有 的 数据 处 理 和 数据 可 视 化 核心 技术 ,而 且 在 某 些 方面 
比 同类 型 软件 领先 了 很 多 。 

还 值得 一 提 的 是 ,在 全 球 最 大 的 商业 智能 用 户 调查 BI Survey 10 中 ,Tableau 在 客户 
忠诚 度 、 实 施 速 度 、 最 低 实施 成 本 和 总 拥有 成 本 方面 都 排名 第 一 ,击败 了 包括 IBM、 甲 骨 
文 .微软 .SAS 在 内 的 众多 BI 供应 商 (图 9-12)。 

资料 来 源 : 新 浪 博客 http://blog. sina. com. cn/s/blog_545ed8b00102wa7m. html 


【实验 与 思考 】 
了 和解 Tableau 数据 可 视 化 软件 


1. 实验 目的 


(1) 了 解 Tableau 数据 可 视 化 软件 的 基本 概念 ,熟悉 Tableau 工作 环境 。 
(2) 掌握 Tableau 基础 操作 ,尝试 初步 开展 Tableau 数据 可 视 化 分 析 操 作 。 
(3) 欣赏 Tableau 数据 可 视 化 优秀 作品 ,了 解 Tableau 数据 可 视 化 设计 能 力 。 


2. 工具 /准备 工作 
在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 
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图 9-12 Tableau 排名 第 一 


3. 实验 内 容 与 步 又 


1) Tableau 入 门 实践 

请 仔细 阅读 本 章 的 课文 内 容 ,执行 其 中 的 Tableau 数据 可 视 化 基础 操作 。 请 在 执行 
过 程 中 对 操作 关键 点 做 好 标注 ,在 对 应 的 “实验 确认 ” 栏 中 打 钩 (~/ ), 并 请 实验 指导 老师 指 
导 并 确认 。( 据 此 作为 本 实验 与 思考 的 作业 评分 依据 。) 
请 记录 : 你 安装 的 Tableau 软件 版 本 是 什么 ? 
答 : 
在 安装 过 程 中 ,你 遇 到 的 问题 有 哪些 ? 
答 : 


















请 问 : 你 是 否 完 成 了 上 述 各 个 实例 的 实验 操作 ? 如 果 不 能 顺利 完成 ,请 分 析 可 能 的 
原因 是 什么 ? 
答 ， 











2) 浏览 Tableau 可 视 化 库 
将 鼠标 指针 指向 Tableau 中 文 简体 官网 上 方 的 “故事 ”项 ,屏幕 显示 如 图 9-13 所 示 。 
单 击 屏幕 右 侧 的 图 案 , 导 航 会 引导 你 进入 Tableau 可 视 化 库 ( 图 9-14) 。 


第 I9 守 Tableau 数 电 可 钢化 入 门 














+ableau 产品 盐酸 学 习 让 区 支持 关于 
2 
行业 活动 技术 
按照 行业 分 类 ， 坦 看 客户 故 控 纵 功 诺 和 部 门 分 类 ,二 看客 。 按照 数据 潭 和 技术 分 类 , 坦 看 
事 、 示 全 和 资源 . 户 故 事 ， 示 例 和 资源 . 震 户 故 事 、 示 例 和 资源 . 
Tableau 可 视 化 库 
重 看 Tableau 有 哪些 可 能 的 用 途 . 











Tale of100 
Entrepreneurs 


全 球 石油 钻井 平 台 


经 济 指标 





图 9-14 Tableau 可 视 化 库 
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大 克 所 可 质 相 


请 选择 并 仔细 了 解 ,Tableau 可 视 化 库 中 包含 了 十 分 丰富 的 Tableau 可 视 化 优秀 作 
品 , 这 些 ( 动 态 ) 优 秀 作品 都 可 以 通过 互动 操作 深入 或 者 广泛 了 解 更 多 的 相关 信息 。 

(1) 加 州 收入 来 源 

在 Tableau 可 视 化 库 中 选择 ( 单 击 )“ 加 利 福 尼 亚 州 政府 的 收入 来 源 ”( 图 9-15)。 在 当 
今 预 算 紧 缩 时 代 , 政 府 机 构 需 要 了 解 自己 财政 收入 的 具体 来 源 , 还 有 这 些 来 源 随时 间 的 变 
化 情况 ,以 及 预计 未 来 发 生 的 变化 。 此 仪表 板 显 示 了 加 利 福 尼 亚 州 政府 的 主要 收入 来 源 
及 其 历史 趋势 。 单 击 瀑布 图 上 的 收入 来 源 即 可 筛选 历史 视图 。 
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图 9-15 Tableau 设计 作品 : 加 州 政府 收入 来 源 


(2) 奥斯汀 教师 流动 故事 

在 可 视 化 库 中 选择 "奥斯汀 教师 流动 故事 ”, 通 过 动态 可 视 化 作品 来 了 解 奥斯汀 的 教师 
更 替 情 况 。 与 美国 很 多 学 区 一 样 , 德 克 萨 斯 州 奥 斯 汀 市 的 学 区 同样 面临 着 一 个 旷日持久 的 
难题 如 何 才能 招 到 并 留 住 教师 。2010 年 ,该 市 斥资 数 百 万 美元 启动 了 一 项 名 为 Reach( 履 
盖 ) 的 计划 , 旨 在 过 制 教师 流动 现象 。 如 图 9-17 所 示 的 仪表 板 采用 了 Tableau 的 “故事 点 
(Story Points)” 功 能 ,可 让 我 们 将 这 些 数 据 转 化 成 可 立即 吸引 受众 注意 的 故事 。 

(3) 调查 满意 度 

在 可 视 化 库 中 选择 “调查 满意 度 ”, 通 过 动态 可 视 化 作品 来 了 解 各 客户 段 的 评分 相 
关 度 。 图 9-17 分 析 视 图 使 用 的 调查 采用 1 一 10 分 制 , 它 将 多 个 细 分 客户 群 的 总 体 满意 
度 评分 、 机 构 专 业 知 识 评 分 和 推荐 可 能 性 评分 关联 起 来 。 每 个 圆 表示 一 个 由 行业 、 工 
作 职 能 、 性 别 和 产品 的 组 合 界 定 的 细 分 客户 群 ,而 大 小 则 对 应 于 该 细 分 客户 群 中 客户 
的 数量 。 


专业 评分 
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奥斯汀 的 教师 更 普 情 况 





教师 更 蔷 是 全 市 都 存在 。 皇 斯 汀 的 教师 更 苦 夺 高 
的 问题 = 二 


在 部 分 学 校 ， 访 问题 特 。 在 城市 范围 内 ， 读 问 题 。 Akins 高 中 最 需要 得 到 
全 国平 均值 到 严重 * 并 未 好 转 。 关注 。 


等 部 更 苦 是 全 市 都 存在 的 问题 , 但 2013 年 , 东 括 斯 本 的 教师 更 若 情 哆 尤其 迷 洋 - 
< j 





(© OpenSteetMap contributors / \ 


图 9-16 Tableau 设计 作品 : 奥斯汀 的 教师 更 蔡 情 况 
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图 9-17 Tableau 设计 作品 : 各 客户 段 的 评分 相关 度 
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(4) 日 本 地 震 


来 了 解 日 本 的 地 震 。 


日 本 地 震 


下 方 单 击 “ 此 作者 提供 的 更 多 内 


各 地 的 地 寺 








aopensreemao cenmouters 


Se 











: Wh ee 








在 可 视 化 库 中 选择 Tale of 100 Entrepreneurs(100 企业 家 的 故事 ), 在 打开 的 屏幕 的 
容 ” 项 ,进一步 单 击 “日 本 地 震 ” 项 ,可 通过 动态 可 视 化 作品 


日 本 位 于 环 太平 洋 地 震 带 边缘 ,这 一 全 长 4 万 公里 的 地 震 带 像 一 个 巨大 的 环 ,围绕 着 
太平 洋 分 布 。 环 太平 洋 地 震 带 是 地 球 上 最 主要 的 地 震 带 ,板块 移动 剧烈 。 它 集中 了 全 世 
界 80 中 以 上 的 浅 源 地 震 、 几乎 全 部 的 中 源 和 深 源 地 震 。 

从 板块 构造 来 看 ,日 本 正好 处 在 太平 洋 板 块 和 亚 欧 板块 的 交界 处 ,太平 洋 板块 俯冲 到 
亚 欧 板块 下 方 , 这 种 地 质 剧 烈 变动 的 地 区 极 易 发 生地 震 ( 图 9-18) 。 
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请 记录 : 
答 : 


图 9-18 Tableau 设计 作品 : 日 本 地 震 


通过 上 述 浏 览 ,你 对 Tableau 软件 的 可 视 化 数据 分 析 能 力 的 评价 是 什么 ? 


















请 记录 : 


Tanleau 可 以 连接 的 文件 包括 : 


3) 浏览 并 熟悉 Tableau Desktop 软件 的 开始 页 面 (参见 图 9-8) 。 
(1) 了 解 Tableau 软件 的 数据 连接 能 力 。 














指名 惫 ”二 二 区 二 可 二 机 人 交 而 








Tableau 可 以 连接 的 服务 器 包括 : 

















(2) 熟悉 Tableau 提供 的 示例 工作 簿 。 
请 记录 : 什么 是 Tableau 工作 簿 (包含 的 内 容 )? 
答 : 











4. 实验 总 结 














5. 实验 评价 (教师 ) 











Tableau 数据 可 视 化 设计 


【导读 案例 】 
人 休 结 胞 与 基因 一 一 没 之 书 


我 们 知道 ,大 多 数 物种 的 最 基本 单位 是 细胞 ,我 们 人 体 也 是 由 细胞 组 成 的 。 细 胞 是 人 
体 的 结构 和 功能 单位 , 共 约 有 40 万 亿 一 60 万 亿 个 ,细胞 的 平均 直径 在 10 一 20 微米 之 间 。 
除 成 熟 的 红血球 和 血小板 外 ,所 有 细胞 都 有 至 少 一 个 细胞 核 ,是 调节 细胞 作用 的 中 心 。 最 
大 的 是 成 熟 的 卵细胞 ,直径 在 0.2 毫米 左右 ;最 小 的 是 血小板 ,直径 只 有 约 2 微米 。 

人 体 细胞 与 基因 的 可 视 化 解读 ,请 参见 图 10-]" 汝 之 书 ”。 


| ed te a a ee te 





图 10-1 汝 之 书 
(资料 来 源 : 维基 百科 


人 体 由 体 细胞 十 生殖 细胞 组 成 , 体 细胞 含有 的 染色 体 数 是 生殖 细胞 的 两 倍 , 人 体 除 生 
殖 细胞 外 ,其 他 细胞 都 是 由 23 对 染色 体 组 成 (血液 中 革 些 不 含 细 胞 核 的 细胞 除外 ) 。 
肠 粘膜 细胞 的 寿命 为 3 天 , 肝 细 胞 寿命 为 500 天 ,而 脑 与 骨 革 里 的 神经 细胞 寿命 有 几 
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十 年 ,同人 体 寿 命 几乎 相等 。 血 液 中 白细胞 有 的 只 能 活 几 小 时 。 人 体 中 每 分 钟 有 1 亿 个 
细胞 死亡 。 最 为 神奇 的 是 大 脑 神经 细胞 的 神经 冲动 传递 速度 超过 400 公里 /小 时 ,相当 于 
777 飞机 速度 的 一 半 。 

细胞 代数 学 说 ( 亦 称 细胞 分 裂 次 数学 说 ) 认 为 ,人 体 细 胞 相当 于 每 2.4 年 更 新 一 代 。 
经 实验 发 现 ,人 体 细 胞 在 培养 条 件 下 平均 可 培养 50 代 , 每 一 代 相 当 于 2.4 年 , 称 为 弗 列 克 
系数 。 据 此 ,人 的 平均 寿命 应 为 2.4X50 一 120 岁 。 

人 脑 有 几 百 亿 个 细胞 ,其 中 98.5% 一 99% 的 细胞 处 于 休眠 状态 ,大 约 有 1% 一 1.5% 
的 细胞 参加 脑 的 神经 功能 活动 。 每 个 人 的 脑 中 活动 的 细胞 数量 多 少 ,决定 着 每 个 人 的 聪 
明 与 记忆 程度 。 所 谓 活动 的 细胞 ,是 指 一 个 神经 细胞 和 另 一 个 神经 细胞 由 “神经 键 " 连 接 
起 来 ,形成 神经 回路 ,成 为 庞大 的 信息 存储 库 , 任 着 信息 存储 库 的 记忆 ,人 类 才 有 语言 . 文 
字 、 创 造 发 明 , 以 及 意识 .情绪 .思维 等 高 级 神经 活动 。 

在 我 们 知道 的 人 体 细胞 数目 中 ,目前 已 能 够 正确 测 出 成 年 男人 百 万 分 之 一 升 血液 中 
大 约 含有 500 万 个 红血球 。 一 般 来 说 ,血液 约 占 人 体重 量 的 1/13。 例 如 ,一 位 重 65 千克 
的 男人 ,他 体内 约 有 5 升 的 血液 。 按 这 样 计算 ,这 个 男人 就 应 该 拥有 25 兆 (2500 万 ) 个 红 
血球 了 。 血 液 里 面 白 血球 的 数量 只 有 红血球 的 八 百 分 之 一 。 这 么 多 的 细胞 ,其 实 都 是 由 
同一 个 细胞 变 成 的 ,这 个 最 初 的 细胞 叫做 受精 卵 。 受 精 卵 慢 慢 长 大 ,1 个 变 为 2 个 ,2 个 变 
为 4 个 ,4 个 变 为 8 个，…… ,就 这 样 成 倍 成 倍 地 增加 ,最 后 变 成 50 兆 个 的 集合 ,这 就 是 我 
们 的 身体 了 。 

所 谓 基因 (遗传 因子 、 遗 传 基 因 ) 是 指 携带 有 遗传 信息 的 DNA 序列 ,是 控制 性 状 的 基 
本 遗传 单位 , 即 一 段 具有 功能 性 的 DNA 序列 。 基 因 通 过 指导 蛋白 质 的 合成 来 表达 自己 
所 携带 的 遗传 信息 ,从 而 控制 生物 个 体 的 性 状 表现 。 人 类 约 有 两 万 至 两 万 五 千 个 基因 。 
染色 体 在 体 细胞 中 是 成 对 存在 的 ,每 条 染色 体 上 都 带 有 一 定数 量 的 基因 。 一 个 基因 在 细 
胞 有 丝 分 裂 时 有 两 个 对 列 的 位 点 , 称 为 等 位 基因 ,分 别 来 自 父 亲 与 母亲 。 按 照 其 控制 的 性 
状 , 又 可 分 为 显 性 基因 和 隐 性 基因 。 一 般 来 说 ,生物 体 中 的 每 个 细胞 都 含有 相同 的 基因 ， 
但 并 不 是 每 个 细胞 中 的 每 个 基因 所 携带 的 遗传 信息 都 会 被 表达 出 来 。 不 同 部 位 和 功能 的 
细胞 ,能 将 遗传 信息 表达 出 来 的 基因 也 不 同 。 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 从 数量 上 看 ,人 体 的 细胞 该 算是 大 数据 了 ,你 了 解 人 类 的 细胞 和 基因 知识 吗 ? 

答 


会 : 














(2) 请 仔细 观察 图 10-1“ 汝 之 书 ”, 了 解 图 中 所 表示 的 大 数据 分 析 的 内 容 与 表现 形式 。 
你 能 看 懂 这 个 图 表达 的 意思 吗 ? 
答 


记 : 
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(3) 请 分 析 , 与 文字 描述 相 比 ,你 认为 图 10-1 所 做 的 展示 优势 在 哪里 ? 
答 : 














(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 
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简便 .快速 地 创建 视图 和 仪表 板 是 Tableau 的 最 大 优点 之 一 ,我 们 将 通过 案例 来 展示 
Tableau 创建 .设计 、 保 存 视图 和 仪表 板 的 基本 方法 和 主要 操作 步骤 ,以 了 解 Tableau 支 
持 的 数据 角色 和 字段 类 型 的 概念 ,熟悉 Tableau 工作 区 中 的 各 功能 区 的 使 用 方法 和 操作 
技巧 ,最终 利 用 Tableau 快速 创建 基本 的 视图 。 

es eld 2015 年 1 月 一 2015 年 6 月 ,数据 存储 
为 Excel 2 见 图 10-2( 其 中 指出 了 数据 源 数 据 与 Tableau 中 数据 的 对 应 关系 )。 








地 ”统计 周期 “让 电 类 别 ”当期 信 Er 
市 区 2015/131 大 工业 3856777 37153.40 37153.40 38567.77 
江北 2013/131 大 工业 24650.62 2214334 22143.34 24857.33 
盐城 2015/5B31 大 工业 247380639 247380539 180120588 1801205.88 1801205.88 
南通 2015/630 电 厂 赴 供 ， 245946516 2459465.16 1815454.48 1815454.48 1815454.48 
扬州 2015331 大 工业 229917173 2299171.73 164665654 ， 1546656.54 1646656.54 
泰州 2015/430 大 工业 226646952 2266469.52 165967950 1659679.50 = 1659679.50 
常州 2015/131 大 工业 209238883 2092383.83 164340100 1643401.00 1643401.00 
无 所 2015/228 农业 189706134 1897061.34 106280177 1062801.77 1062801.77 
菏泽 2015/5B1 大 工业 160716175 16071617 130371100 1303711.00 1303711.00 
青岛 2015/430 大 工业 159486010 1594860.10 131373000 1313730.00 1313730.00 

台 2016/630 非 因 民 156594258 1565942.58 1302881.00 1302881.00 1302881.00 
温州 2015/430 大 工业 156573835 1565738.35 = 143465743 1484657. 和 3 1484657. 李 
台州 2015/630 大 工业 156468049 1564680.49 148801176 1488011.76 1488011.76 
绍兴 2013/581 商业 151482581 1514825.81 1478757.19 1478757.19 1478757.19 
威海 20153B1 大 工业 148636642 148636542 127114200 127114200 1271142.00 
郴州 32013/131 大 工业 138712419 138712419 142211220 1422112.20 1422112.20 
金华 2015/3B31 大 工业 135494999 13549499.99 119005511 1190055.11 1190055.11 
济宁 2015/131 其 他 123493257 1234932.57 139679750 1396797.50 1396797.50 
济南 2015/228 大 工业 116151146 1161511.46 11783207 1178342.07 1178342.07 
南阳 2015/131 至 售 1015447.12 1015447.12 976051.00 976051.00 976051.00 
驻马店 2013/430 大 工业 97563136 975631 36 918596 54 918596 54 918596 54 
安阳 2015/5B1 大 工业 S1121646 911216.45 89740036 897400.36 897400.36 
党 阳 2015/331 大 工业 907300 51 907300.51 869560.82 869560.82 869560.82 
大 连 2015/V31 大 工业 835727.00 835727.00 856460.00 856460.00 856450.00 
较 山 2015/131 居民 196408.00 196408.00 207754.00 207754.00 207754.00 
沈阳 2013/131 非 苦 工 业 15910700 159107.09 16943800 169438.00 169438.00 
开封 2015228 齐 告 36988S 60 869885 .60 22826700 328267.00 228267.00 
漂 河 2015/630 大 工业 86716457 867164.57 92042361 920423.61 920423.61 
太原 2015/L31 大 工业 849845 56 849845.55 84113000 8341130.00 841130.00 

















图 10-2 Excel 数据 源 : 2015 年 分 省 市 售 电量 明细 表 
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Excel 表 中 共有 6 列 变量 ,用 电 类 别 是 对 售 电量 市 场 的 进一步 细 分 ,包括 大 工业 、 居 民 、 非 
居民 、 商 业 等 9 类 ;当期 值 为 统计 周期 对 应 时 间 的 售 电量 ;同期 值 为 上 一 年 相同 月 份 的 售 
电量 ;月 度 计划 值 为 当月 的 计划 值 。 

实例 10-1 进入 工作 表 工 作 区 。 

步 又 1: 打开 Microsoft Excel, 在 其 中 输入 数据 建立 如 图 10-2 所 示 的 Excel 表格 ,并 
另存 为 “实例 10-1. xlsx”。 

步骤 2: 打开 Tableau Dasktop, 在 Tableau" 开 始 页 面 " 中 的 “连接 到 -文件 " 栏 中 单 击 
Excel, 将 Excel 数据 表 “ 实 例 10-1” 导 入 到 Tableau 中 (图 10-3) 。 
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图 10-3 导入 Excel 数据 源 


步骤 3: 在 图 10-3 所 示 界 面 的 左下 方 单 击 “ 工 作 表 1 按钮 ,进入 Tableau 工作 表 工 
作 区 。 


10.1.1 数据 角色 


Tableau 连接 数据 后 会 将 数据 显示 在 工作 区 的 左 侧 , 称 之 为 数据 窗口 (图 10-4)。 数 
据 窗口 的 顶部 是 数据 源 窗 口 , 其 中 显示 的 是 连接 到 Tableau 的 数据 源 。Tableau 支持 连 
接 多 个 数据 源 ,数据 源 窗口 的 下 方 分 别 为 维度 窗口 和 度量 窗口 ,分别 用 来 显示 导入 的 维度 
字段 和 度量 字段 (Tableau 将 数据 表 中 的 一 列 变量 称 为 字段 ) 。 

维度 和 度量 是 Tableau 的 一 种 数据 角色 划分 ,离散 和 连续 是 另 一 种 划分 方式 。 
Tableau 功能 区 对 不 同 数据 角色 的 操作 处 理 方式 是 不 同 的 ,因此 了 解 Tableau 数据 角色 
十 分 必要 。 


1. 维度 和 度量 


度量 窗口 显示 的 数据 角色 为 度量 ,往往 是 数值 字段 ,将 其 拖 放 到 功能 区 时 ,Tableau 
默认 会 进行 聚合 运算 ,同时 ,视图 区 将 产生 相应 的 轴 。 
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图 10-4 数据 窗口 


维度 窗口 显示 的 数据 角色 为 维度 ,往往 是 一 些 分 类 、 时 间 方 面 的 定性 字段 ,将 其 拖 放 
到 功能 区 时 ,Tableau 不 会 对 其 进行 计算 ,而 是 对 视图 区 进行 分 区 ,维度 的 内 容 显 示 为 各 
区 的 标题 。 例 如 想 展示 各 省 售 电量 当 期 值 ,这 时 “省 市 ”字段 就 是 维度 ,“ 当 期 值 ”为 度量 ， 
“当期 值 ” 将 依据 各 省 市 分 别 进行 “总 计 ” 聚 合 运算 。 

Tableau 连接 数据 时 会 对 各 个 字段 进行 评估 ,根据 评估 自动 将 字段 放 和 人 维度 窗口 或 
度量 窗口 。 通 常 Tableau 的 这 种 分 配 是 正确 的 ,但 是 有 时 也 会 出 错 。 例 如 数据 源 中 有 员 
工 工 号 字段 时 , 工 号 由 一 串 数字 构成 ,连接 数据 源 后 .Tableau 会 将 其 自动 分 配 到 度量 中 。 
这 种 情况 下 ,我 们 可 以 把 工 号 从 度量 窗口 拖 放 至 维度 窗口 中 ,以 调整 数据 的 角色 。 例 如 将 
字段 “当期 值 ?转换 为 维度 ,只 需 将 其 拖 放 到 维度 窗口 中 即 可 。 字 段 * 当 期 值 ?前 面 的 图 标 
也 会 由 绿色 变 为 蓝 色 。 

维度 和 度量 字段 有 个 明显 的 区 别 就 是 图 标 , 即 维度 为 蓝 色 ,度量 为 绿色 。 实 际 上 在 
Tableau 中 作 图 时 这 种 颜色 的 区 别 贯穿 始终 , 当 我 们 创建 视图 拖 放 字 有 段 到 行 功能 区 或 列 
功能 区 时 ,依然 会 保持 相应 的 两 种 颜色 。 


2 离散 和 连续 


离散 和 连续 是 另 一 种 数据 角色 分 类 ,在 Tableau 中 , 蓝 色 是 离散 字段 ,绿色 是 连续 字 
段 。 离 散 字段 在 行列 功能 区 时 总 是 在 视图 中 显示 为 标题 ,而 连续 字段 则 在 视图 中 显示 
为 轴 。 

当期 值 为 离散 类 型 时 ,当期 值 中 的 每 一 个 数字 都 是 标题 ,字段 颜色 为 蓝 色 。 当 期 值 为 
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连续 类 型 时 ,下 方 出 现 的 是 一 条 轴 , 轴 上 是 连续 刻度 ,当期 值 是 轴 的 标题 ,字段 颜色 为 绿 
色 。 离 散 和 连续 类 型 也 可 以 相互 转换 , 右 击 字段 ,在 弹出 框 中 就 有 “离散 "和 “连续 ”选项 ， 
单 击 即 可 实现 转换 。 


10.1.2 字段 类 型 


数据 窗口 中 各 字段 前 的 符号 用 以 标示 字段 类 型 。Tableau 支持 的 数据 类 型 包括 文 
本 日 期 .日 期 和 时 间 、 地 理 值 , 布 尔 值 . 数 字 、 地 理 编 码 等 。 

三 # 即 数字 标志 符号 前 加 个 等 号 ,表示 这 个 字段 不 是 原 数 据 中 的 字段 ,而 是 Tableau 
自 定义 的 一 个 数字 型 字段 。 同 理 , 二 Abc 是 指 Tableau 自 定义 的 一 个 字符 串 型 字段 。 

Tableau 会 自动 为 导入 的 数据 分 配 字 段 类 型 ,但 有 时 自动 分 配 的 字段 类 型 不 是 我 们 
所 希望 的 。 由 于 字段 类 型 对 于 视图 的 创建 非常 重要 ,因此 一 定 要 在 创建 视图 前 调整 一 些 
分 配 不 规范 的 字段 类 型 。 

步骤 1: 在 本 例 中 ,字段 “省 市 ?和 ”统计 周期 ”显示 的 字段 类 型 都 为 字符 串 ,而 不 是 我 
们 想 要 的 地 理 和 日 期 类 型 ,这 时 就 需要 手动 调整 。 调 整 方法 为 单 击 右 侧 小 三 角形 (或 者 右 
击 ), 在 弹出 的 对 话 框 中 选择 “地 理 角色 ”一 “省 /市 /自治 区 ”, 这 时 “省 市 ” 便 成 了 地 理 字段 ， 
并 且 在 选择 后 度量 窗口 会 自动 显示 相应 的 经 纬度 字段 。 

步骤 2: 对 于 “统计 周期 ,同样 选择 “更 改 数据 类 型 "一 “日 期 * 即 可 。 

可 以 发 现在 数据 窗口 有 三 个 多 出 来 的 字段 : 记录 数 、 度 量 名 称 和 度量 值 。 实 际 上 ,每 
次 新 建 数 据 源 都 会 出 现 这 三 个 字段 ,其 中 记录 数 是 Tableau 自动 给 每 行 观测 值 赋值 1, 可 
用 以 计数 。 


102 创建 视图 


下 面 我 们 来 创建 Tableau 视图 。 一 个 完整 的 Tableau 可 视 化 产品 由 多 个 仪表 板 构 
成 ,每 个 仪表 板 由 一 个 或 多 个 视图 (工作 表 ) 按 照 一 定 的 布局 方式 构成 ,因此 视图 是 一 个 
Tableau 可 视 化 产品 最 基本 的 组 成 单元 (图 10-5) 。 

视图 中 的 图 形 单元 称 为 标记 ,例如 圆 图 的 一 个 圆 点 或 柱 形 图 的 一 根 柱子 ,都 是 标记 。 

可 以 利用 数据 窗口 中 的 数据 字段 来 创建 视图 。Tableau 作 图 非常 简单 ,将 数据 窗口 
中 的 字段 拖 放 到 行 、 列 功能 区 ,Tableau 就 会 自动 依据 相关 功能 将 图 形 显示 在 下 方 视图 区 
中 ,并 显示 相应 的 轴 或 标题 。 当 使 用 卡 和 行列 功能 区 进行 操作 时 ,图 形 的 变化 都 会 即时 显 
示 在 视图 区 。 


10.2.1 行列 功能 区 


步骤 1: 以 制作 各 省 当期 售 电量 柱 形 图 为 例 , 选 定 字段 “省 市 ”, 拖 放 到 列 功能 区 ,这 时 
横 轴 就 按照 各 省 名 称 进行 了 分 区 ,各 省 市 成 为 了 区 标题 。 同 理 , 拖 放 字 有 段 “ 当 期 值 ”到 行 功 
能 区 ,这 时 字段 会 自动 显示 成 “总 计 ( 当 期 值 )”, 视 图 区 显示 的 便 是 售 电量 各 省 累计 值 柱 
形 图 。 

步骤 2: 行列 功能 区 可 以 拖 放 多 个 字段 ,例如 可 以 将 字段 “同期 值 ” 拖 放 到 “总 计 ( 当 期 
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图 10-5 视图 工作 区 


值 )” 的 左边 ,Tableau 这 时 会 根据 度量 字段 “当期 值 " 和 “同期 值 ” 分 别 作 出 对 应 的 轴 
(图 10-6) 。 
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图 10-6 ”在 行 、 功 能 区 添加 字段 


步骤 3: 维度 和 度量 都 可 以 拖 放 到 行 功能 区 或 列 功能 区 ,只 是 横 轴 、 纵 轴 的 显示 信息 
会 相应 地 改变 ,例如 单 击 工具 栏 上 的 “交换 "按钮 ,将 行 、 列 上 的 字段 互 换 , 这 时 省 市 显示 在 
纵 轴 , 横 轴 变 成 了 当期 值 和 同期 值 (图 10-7) 。 

步骤 4: 拖 放 度 量 字段 “当期 值 ”到 功能 区 ,字段 会 自动 显示 成 “总 计 ( 当 期 值 )”, 这 反 
映 了 Tableau 对 度量 字段 进行 了 聚合 运算 ,默认 的 聚合 运算 为 总 计 。Tableau 支持 多 种 
不 同 的 聚合 运算 ,如 总 计 、 平 均值 .中 位 数 、 最 大 值 . 计 数 等 。 如 果 想 改变 聚合 运算 的 类 型 ， 
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图 10-7 互 换行 列 字 段 
例如 想 计 算 各 省 的 平均 值 ,只 需 在 行 功能 区 或 列 功 能 区 的 度量 字段 上 , 右 击 “总 计 ( 当 期 
值 )" 或 单 击 右 侧 小 三 角形 ,在 弹出 对 话 框 中 选择 “度量 "一 “平均 值 * 即 可 (图 10-8)。 
Tableau 求 平均 值 是 对 行 数 的 平均 。 
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图 10-8 度量 字段 的 聚合 运算 


10.2.2 标记 卡 


创建 视图 时 ,经 常 需要 定义 形状 .颜色 .大 小 \ 标 签 等 图 形 属性 。 在 Tableau 里 ,这 些 
过 程 都 将 通过 操作 标记 卡 来 完成 ,其 上 部 为 标记 类 型 ,用 以 定义 图 形 的 形状 。Tableau 提 
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供 了 多 种 类 型 的 图 以 供 选择 ,默认 状态 下 为 条 形 图 。 标 记 类 型 下 方 有 5 个 像 按钮 一 样 的 
图 标 ,分 别 为 颜色 ”“ 大 小 ”“ 标 答 "“ 详 细 信 息 " 和 "工具 提示 ”。 这 些 按钮 的 使 用 非常 简 
单 ,只 需 把 相关 的 字段 拖 放 到 按钮 中 即 可 ,同时 单 击 按钮 还 可 以 对 细节 .方式 .格式 等 进行 
调整 。 此 外 还 有 三 个 特殊 按钮 ,特殊 按钮 只 有 在 选择 了 对 应 的 标记 类 型 时 , 才 会 显示 
出 来 。 这 三 个 特殊 按钮 分 别 是 线 图 对 应 的 * 路 径 ”` 形 状 图 对 应 的 “形状 ” 饼 团 对 应 的 
“角度 "。 


1. 颜色 、 大 小 和 标签 


步 又 1: 针对 图 10-6 所 示 的 图 例 , 如 果 想 让 不 同 省 市 显示 不 同 颜色 ,可 利用 标记 卡 中 
的 颜色 来 完成 ,只 需 将 字段 “省 市 ? 拖 放 到 标记 卡 的 “颜色 ?项 即 可 (图 10-9)。 这 时 , 卡 功 
能 区 的 下 方 会 自动 出 现 颜 色 图 例 , 用 以 说 明 颜 色 与 省 市 的 对 应 关系 。 














图 10-9 设置 颜色 标记 


步骤 2: 单 击 下 方 颜色 图 例 右 上 角 处 ,在 弹出 框 中 可 以 对 颜色 图 例 进 行 设置 ,如 编辑 
标题 .排序 .设置 格式 等 。 其 中 单 击 选项 “编辑 颜色 ”, 进 入 颜色 编辑 页 面 , 可 以 对 不 同 的 区 
域 自 定义 不 同 的 颜色 。 

步骤 3: 如 果 要 对 视图 中 的 标记 添加 标签 ,如 将 当期 值 添加 为 标签 显示 在 图 上 ,只 需 
将 字段 “当期 值 ” 拖 放 到 标签 即 可 ,如 图 10-10 所 示 。 

步骤 4: 标签 显示 的 是 各 省 的 当期 值 总 计 , 如 果 想 让 标签 显示 各 省 当期 值 的 总 额 百 分 
比 , 可 右 击 “ 标 记 ” 卡 中 的 总 计 ( 当 期 值 ) 或 单 击 总 计 ( 当 期 值 ) 右 侧 的 小 三 角 标 记 , 在 弹出 的 
对 话 框 中 选择 “快速 表 计 算 ”>“ 总 额 百分比 ”命令 ,这 时 视图 中 的 标签 将 变 为 总 额 百 分 占 
比 。 此 外 , 单 击 标签 ,可 对 标签 的 格式 、 表 达 方 式 等 进行 设置 。 

步骤 5: 设置 大 小 和 颜色 与 此 类 似 , 拖 放 字 段 到 * 大 小 ”, 视 图 中 的 标记 会 根据 该 字段 
改变 大 小 。 需 要 注意 的 是 ,颜色 和 大 小 只 能 放 一 个 字段 ,但 是 标签 可 以 放 多 个 字段 。 
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图 10-10 添加 标签 


2 详细 信息 

详细 信息 的 功能 是 依据 拖 放 的 字段 对 视图 进行 分 解 细 化 。 

步骤 6: 以 圆 图 为 例 ,将 * 省 市 ? 拖 放 到 列 功能 区 “当期 值 " 拖 放 到 行 功能 区 、 标 记 类 型 选 
择 “ 圆 "图 ,如 图 10-11 所 示 。 这 时 每 个 圆 点 所 代表 的 值 其 实 是 各 个 用 电 类 别 6 个 月 的 总 和 。 
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图 10-11 设置 详细 信息 


步骤 7: 将 字段 “用 电 类 别 " 拖 到 标记 卡 的 “详细 信息 ”项 ,Tableau 会 依据 “用 电 类 别 ” 
进行 分 解 细 化 ,这 时 每 个 圆 点 变 为 多 个 圆 点 ,每 一 个 点 代表 相应 省 市 某 一 用 电 类 别 的 总 
和 ,如 图 10-12 所 示 。 拖 放 字段 “统计 周期 "到 “详细 信息 ”并 选择 按 “ 月 "(Tableau 默认 的 
是 按 “ 年 ”) ,这 时 每 个 点 再 次 解 聚 ,每 个 点 表示 该 省 某 月 某 用 电 类 别 总 和 ,如 图 10-13 
所 示 。 
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图 10-13 依据 “用 电 类 别 " 和 “月 (统计 周期 )” 的 详细 信息 
其 实 , 直 接 拖 放 到 “标记 ” 卡 的 下 方 就 可 以 表示 详细 信息 ,并 且 颜 色 、 大 小 、 标 签 都 具有 
与 详细 信息 搭配 使 用 的 功能 。 
3. 工具 提示 
步骤 8: 当 和 鼠标 移 至 视图 中 的 标记 上 时 ,会 自动 跳出 一 个 显示 该 标记 信息 的 框 ,出 现 
提示 信息 ,这 便 是 工具 提示 的 作用 。 
步骤 9: 单 击 “ 工 具 提示 ”可 以 看 到 工具 提示 的 内 容 .可 对 这 些 内 容 进行 删除 、 更 改 格 


式 ,排版 等 操作 。Tableau 会 自动 将 “标记 ”选项 卡 和 行列 功能 区 的 字段 添加 到 工具 提示 
中 ,如 果 还 需要 添加 其 他 信息 ,只 需 将 相应 的 字段 抑 放 到 “标记 ” 卡 中 。 


区 而 惫 ”二 二 区 二 可 俩 引起 个 


10.2.3 筛选 器 


有 时 候 只 想 让 Tableau 展示 数据 的 某 一 部 分 ,如 只 看 某 个 月 份 的 售 电量 、 只 看 某 地 区 
各 省 情况 、 只 用 电量 大 于 某 个 值 的 数据 等 ,这 时 可 通过 筛选 器 完成 上 述 选 择 。 拖 放任 一 字 
段 (无 论 维度 还 是 度量 ) 到 筛选 器 卡 里 ,都 会 成 为 该 视图 的 筛选 器 。 

步骤 1: 如 果 让 视图 里 只 显示 大 工业 的 点 ,只 需要 将 字段 “用 电 类 别 ? 拖 放 到 筛选 器 卡 
里 ,这 时 Tableau 会 自动 弹出 一 个 对 话 框 , 单 击 “ 从 列表 中 选择 ?选项 就 会 显示 “用 电 类 别 ” 
的 内 容 ,这 里 可 直接 选中 想 展现 的 用 电 类 别 , 如 * 大 工业 ”( 图 10-14) 。 单 击 * 确 定 ” 后 字段 
“用 电 类 别 ? 就 显示 在 筛选 器 中 了 。 
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图 10-14 添加 筛选 器 


步骤 2: Tableau 提供 了 多 种 筛选 方式 ,在 图 10-14 所 示 的 筛选 器 上 方 可 以 看 到 “ 常 
规 ”“ 通 配 符 ”“ 条 件 ”" 和 “顶部 ”选项 卡 ,每 一 个 选项 卡 之 下 都 有 相应 的 筛选 方式 ,这 大 大 
丰富 了 筛选 操作 形式 。 


10.2.4 ”页面 


将 一 个 字段 拖 放 到 页 面 卡 会 形成 一 个 页 面 播放 器 ,播放 器 可 让 工作 表 更 灵活 。 

步骤 1: 为 了 更 好 地 展示 页 面 功能 , 单 击 屏幕 下 方 的 “新 建 工 作 表 ?按钮 新 建 一 个 工 
作 表 。 

步骤 2: 拖 放 字 有 段 “统计 周期 "到 列 ,Tableau 默认 “统计 周期 "为 年 ,手动 转换 为 月 , 拖 
放 * 当 期 值 ? 到 行 , 标 记 类 型 选择 为 圆 。 
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步骤 3: 拖 放 字段 “统计 周期 "到 页 面 卡 . 这 时 页 面 卡 下 方 会 自动 出 现 一 个 “年 (统计 周 
期 )” 的 播放 器 。 将 日 期 的 显示 “年 (统计 周期 ”调整 为 “月 (统计 周期 )”( 图 10-15)。 
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图 10-15 设置 页 面 播放 器 


步骤 4: 单 击 播放 器 的 播放 键 ,可 以 让 视图 动态 播放 出 来 ,选择 “显示 历史 记录 ”可 以 
调整 播放 的 效果 。 


10.2.5 智能 显示 


在 Tableau 的 右 端 有 一 个 智能 显示 的 按钮 , 单 击 展开 ,其 中 显示 了 24 种 可 以 快速 
创建 的 基本 图 形 ( 见 图 10-16 的 右 侧 )。 将 鼠标 移动 到 任意 图 形 上 ,下 方 都 会 显示 作 该 
图 需要 的 字段 要 求 ,如 将 鼠标 移动 到 符号 地 图 上 ,下 方 会 显示 “1 个 地 理 维度 ,0 个 或 多 
个 维度 ,0 至 2 个 度量 ”, 这 表明 创建 该 视图 必须 要 一 个 地 理 类 型 的 字段 类 型 ,度量 不 能 
超过 2 个 。 

步骤 1: 新 建 一 个 工作 表 。 

步骤 2: 按照 要 求 , 将 地 理 维度 “省 市 ” 拖 到 行 功 能 区 、“ 当 期 值 ” 拖 放 到 列 功能 区 ,这 
时 候 发 现 智能 显示 的 某 些 图 形 高 亮 了 ,高 亮 的 图 形 表 示 用 目前 的 字段 可 以 快速 创建 的 
图 形 。 单 击 智能 显示 中 的 “符号 地 图 ”, 符 号 地 图 就 创建 完成 了 。 这 时 ,可 以 发 现行 、 列 
功能 区 变 为 经 、 纬 度 字段 ,“ 省 市 "在 “标记 ” 卡 中 表示 详细 信息 ,符号 大 小 表示 “当期 值 ” 
(图 10-16) 。 


10.2.6 度量 名 称 和 度量 值 


度量 名 称 和 度量 值 都 是 成 对 使 用 的 ,目的 是 将 处 于 不 同 列 的 数据 用 一 个 轴 展 示 出 来 。 
当 想 同时 看 各 省 当期 值 和 同期 值 时 . 拖 放 “ 省 市 "到 列 功 能 区 ,再 分 别 拖 放 “ 当 期 值 " 和 “ 同 
期 值 ? 到 行 功能 区 .可 以 看 到 ,图 10-10 中 出 现 了 当期 值 和 同期 值 两 条 纵 轴 。 

下 面 我 们 利用 度量 值 和 度量 名 称 来 完成 两 列 不 同 数据 共用 一 个 轴 的 操作 。 
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图 10-16 绘制 符号 地 图 


步骤 1: 新 建 一 工作 表 。 

步骤 2: 拖 放 字 段 “省 市 ”到 列 功 能 区 ,然后 拖 放 度 量 值 到 行 功能 区 ,这 时 在 左下 方 “ 度 
量 值 ”区 域 会 显示 包含 了 哪些 度量 ,Tableau 默认 的 度量 值 会 包含 所 有 的 度量 。 由 于 只 需 
要 当期 值 和 同期 值 ,因此 , 单 击 “ 行 "上 “度量 值 * 右 边 的 小 三 角形 ,选择 “筛选 器 ” ,去掉 记录 
数 前 面 的 选中 ,只 保留 "当期 值 " 和 “同期 值 ”。 

步骤 3: 将 度量 名 称 拖 放 到 “颜色 ”, 这 时 柱状 图 按 颜色 分 成 了 当期 值 和 同期 值 ,二 者 
共用 一 个 纵 轴 (图 10-17(a))。 如 果 习 惯 将 当期 值 和 同期 值 分 开 为 两 个 柱子 ,只 需 将 度量 
名 称 拖 放 到 列 功能 区 ,放置 在 省 市 的 右边 (图 10-17(b))。 
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图 10-17 双 柱 图 
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(b) 
图 10-17 ( 续 ) 


事实 上 ,我 们 可 以 利用 智能 显示 快速 完成 双 柱 图 形 , 在 智能 显示 里 双 柱 图 称 为 并 排 
图 ,把 鼠标 放 上 去 会 显示 完成 该 图 需要 “1 个 或 多 个 维度 ,1 个 或 多 个 度量 ,至 少 需要 3 个 
字段 ”"。 我 们 将 “省 市 ” 抑 放 到 列 功能 区 ,将 “当期 值 *" 和 “同期 值 ” 拖 放 到 行 功能 区 ,这 时 并 
排 图 被 高 亮 , 单 击 即 可 完成 。 


103 创建 仪表 板 


完成 所 有 工作 表 的 视图 后 ,我 们 便 可 以 将 其 组 织 在 仪表 板 中 了 。 
步骤 1: 单 击 下 方 的 新 建 仪 表 板 ,进入 到 仪表 板 工作 区 (图 10-18) 。 
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图 10-18 仪表 板 工 作 区 
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步骤 2: 创建 仪表 板 也 是 用 拖 放 的 方法 ,将 创建 好 的 工作 表 拖 放 到 右 侧 排版 区 ,并 按 
照 一 定 的 布局 排版 好 (图 10-19)。 
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图 10-19 创建 简单 仪表 板 





104 保存 工作 成 果 


创建 完 仪表 板 后 ,应 当 将 结果 保存 在 Tableau 工作 簿 中 。 为 此 ,选择 “文件 ”>“ 保 存 ” 
命令 进行 保存 。 保 存 的 类 型 可 以 是 Tableau 工作 簿 ( x . twb) ,该 类 型 将 所 有 工作 表 及 其 
连接 信息 保存 在 工作 短文 件 中 但 不 包括 数据 ;也 可 以 是 Tableau 打包 工作 德 ( x . twbx)， 
该 类 型 包含 所 有 工作 表 、 其 连接 信息 以 及 任何 其 他 资源 如 数据 、 背 景 图 片 等 。 

至 此 ,我们 以 一 个 简单 案例 介绍 了 Tableau 从 连接 数据 到 最 后 工作 短发 布 的 过 程 , 重 
点 介绍 了 如 何 利用 功能 区 创建 视图 .以便 读者 熟悉 Tableau 拖 放 的 作 图 方法 。 


【延伸 阅读 】 
可 视 化 博客 、 可 视 化 网 站 、 可 视 化 资源 


数据 可 视 化 专业 网 站 datavlab. org 的 目标 是 搭建 讨论 数据 可 视 化 的 一 个 平台 ,由 淘 
宝 可 视 化 团队 发 起 , 旨 在 为 可 视 化 的 爱好 者 提供 了 解 可 视 化 实践 可 视 化 .讨论 可 视 化 的 
渠道 。 

虽然 下 面 列举 的 大 多 数 网 站 都 是 外 文 的 ,但 我 们 学 习 的 是 数据 可 视 化 ,在 这 里 ,语言 
的 难度 好 像 并 不 那么 重要 一 一 不 是 吗 ? 

我 们 收集 了 一 些 能 给 可 视 化 工程 师 、 信 息 设计 师 带 来 巨大 帮助 的 blog 及 网 站 ,提供 
了 创建 方法 、 案 例 、 类 型 以 及 其 他 资源 。 有 些 还 提供 了 工具 来 帮助 您 创建 自己 的 可 视 化 数 
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据 ( 站 点 的 排序 的 大 致 原则 为 (1) 更 有 影响 力 的 站 点 排序 更 人 靠 前 ; (2) 侧 重 数 据 可 视 化 站 
点 比 侧重 设计 资源 的 站 点 更 靠 前 )。 

。 Visualising Data 

Visualising Data 是 Andy Kirk 创建 的 比较 有 名 的 可 视 化 博客 ,介绍 最 新 的 可 视 化 技 
术 、 软 件 资 源 和 应 用 实践 。 

» Information is beautiful 

Information is beautiful 是 David McCandless 的 可 视 化 网 站 ,展示 他 的 精美 的 可 视 
化 作品 ,颂扬 了 精美 的 数据 设计 。 网 站 还 进行 可 视 化 竞赛 , 寺 助 商 们 提供 数据 ,可 视 化 爱 
好 者 们 提交 可 视 化 作品 ,优胜 者 将 获得 奖励 。 

。， Flowingdata 

Flowingdata 是 可 视 化 专家 Nathan Yau 建立 的 著名 的 可 视 化 案例 网 站 ,提供 了 一 些 
令 人 震惊 图 表 。 

。 Information Aesthetics 

Information Aesthetics 是 由 Andrew Vande Moere 设计 和 维护 的 著名 可 视 化 案例 网 

,宗旨 是 探索 信息 可 视 化 和 创造 性 设计 之 间 的 密切 关系 。 转 载 了 许多 细节 精致 的 图 表 

和 可 视 化 数据 ,涉及 政治 ,经 济 、 金 融 及 其 他 类 型 。 

»° FILWD 

FILWD(Fall in love with data) 以 享受 从 数据 中 获取 信息 的 乐趣 为 宗旨 ,并 不 提供 可 
视 化 相关 的 资讯 和 案例 分 享 , 着 重 于 数据 可 视 化 的 经 验 分 享 , 致 力 于 在 可 视 化 的 研究 和 实 
践 之 间 建 立 桥梁 。 

。 Visual Business Intelligence 

Visual Business Intelligence 是 和 商业 图 表 相 关 的 一 个 博客 ,介绍 商业 图 表 可 视 化 的 
人 案例、 设计 经 验 , 评 论 可 视 化 的 趋势 和 资源 。 

。 Datavisualization 

Datavisualization 是 数据 可 视 化 和 信息 图 表 的 资讯 网 站 ,分 享 可 视 化 资源 ,发 布 自身 
的 可 视 化 研究 成 果 , 也 转载 评论 他 人 的 优秀 案例 。 

。 视 物 | 致知 

视 物 | 致知 是 一 群 热爱 信息 可 视 化 和 数据 分 析 的 程序 员 建 立 的 可 视 化 中 文 站 点 ,分 享 
最 新 的 可 视 化 案例 和 经 验 。 

。 图 表 汇 

图 表 汇 是 一 个 专注 于 信息 图 表 (Infographics) 的 学 习 与 分 享 的 主题 博客 平台 ,学 习 和 
交流 信息 可 视 化 (InformationVisualization) 的 理论 ,技巧 和 方法 ,共享 信息 可 视 化 之 美 ! 

。 visualizing. org 

visualizing. org 是 面向 多 种 人 和 群 的 可 视 化 站 点 ,任何 人 都 可 以 分 享 、 评 论 可 视 化 作 
品 ,创作 者 可 以 上 传 自己 的 作品 ,团体 组 织 可 以 发 布 自己 的 数据 ,学 校 老 师 也 可 以 组 织 一 
些 可 视 化 比赛 。 

。 visual complexity 


visual complexity 是 可 视 化 专家 Manuel Lima 创建 的 关于 复杂 网 络 的 可 视 化 博客 ， 
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致力 于 研究 复杂 网 络 的 可 视 化 方法 和 原则 。 汇 集 了 大 量 的 工程 项 目 图 表 。 图 表 都 进行 了 
分 类 并 提供 缩 略 图 ,以 便于 对 海量 信息 进行 检索 。 

。， number27 

number27 是 We Feel Fine 的 作者 之 一 Jonathan Harris 创建 的 博客 。 他 的 惊人 作品 
融合 了 计算 机 、 人 类 学 、 虚 拟 艺术 、 叙 事 等 元 素 。 

。 Edward Tufte 

Edward Tufte 介绍 了 来 源 广泛 的 信息 可 视 化 图 表 。 每 张 图 表 都 有 独立 评注 ,其 中 有 
一 些 令 人 难以 置信 的 有 趣 图 片 。Edward Tufte 是 信息 图 表 设 计 的 一 代 宗 师 。 

。 visual.ly 

visual. ly 是 非常 专业 的 可 视 化 站 点 ,收集 了 数 千 件 可 视 化 作品 。 用 户 可 以 搜索 可 视 
化 实例 ,上 传 自己 的 可 视 化 作品 ,利用 其 软件 生成 自己 的 图 形 化 简历 。 

。 Many Eyes 

Many Eyes 提供 了 工具 让 你 创建 自己 的 可 视 化 数据 ,同时 还 可 浏览 别人 的 作品 。 他 
们 也 拥有 一 个 很 大 的 图 库 。 

。 Well formed Data 

Well-formed Data 这 个 Blog 的 题材 包含 交互 界面 设计 、 信 息 图 形 、 数 据 及 统计 可 视 
化 等 ,所 附 评注 非常 有 趣 , 就 某 些 话题 进行 了 深入 的 探讨 。 

。 The New York Times( 纽 约 时 报 ) 

在 The New York Times 的 网 站 上 花 一 点 力气 找到 最 好 的 图 表 绝 对 是 值得 的 。 它 们 
拥有 商业 领域 最 好 的 信息 图 形 ,保证 平均 水 平 的 读者 能 轻易 理解 那些 实际 上 非常 复杂 的 
数据 。 

。 Cool Infographics 

Cool Infographics 是 一 个 令 人 歼 屋 的 Blog 一 一 信息 可 视 化 的 编 年 史 及 大 量 搜集 来 的 
可 视 化 数据 。 只 要 你 所 能 想得到 的 话题 ,这 儿 都 有 。 基 于 Tag 的 架构 便于 你 查找 特定 类 
别 的 图 表 。 

。 Simple Complexity 

Simple Complexity 这 个 网 站 展示 了 一 些 简化 复杂 信息 的 可 视 化 数据 ,用 一 种 易于 理 
解 的 方式 来 体现 他 们 的 真实 意图 。 也 包括 一 些 关于 如 何 图 表 优 化 的 教程 。 

。 Strange Maps 

Strange Maps 上 有 许多 基于 图 表 的 地 图 ,涵盖 古今 。 地 图 里 所 带 的 标注 ,其 中 最 有 
趣 的 是 那些 历史 地 图 。 

*。 Wall Stats 

Wall Stats 用 海报 招贴 的 形式 制作 了 “美国 个 人 可 自由 支配 收入 的 统计 ”图 表 , 它 们 
还 提供 了 其 他 关于 政治 及 经 济 议题 的 图 表 。 

。 Data Mining 

Data Mining 涉及 的 领域 为 数据 可 视 化 、 社 会 化 媒体 和 数据 挖 气 。 这 个 Blog 从 包括 
《美国 国家 地 理 ) 及 《经 济 学 人 ) 在 内 的 其 他 媒体 上 聚合 了 大 量 的 信息 可 视 化 图 形 。 
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。 Infographics News 

Infographics News 主要 提供 新 闻 类 信息 可 视 化 图 像 ,也 发 布 了 一 些 和 新 闻 相 关 的 不 
同 寻 常 的 图 表 。 

。 Chart Porn 

Chart Porn 提供 来 自 全 国 各 地 的 图 示 和 图 表 , 设 计 精 美 ,涉及 广泛 。 按 话题 分 类 ，, 易 
于 检索 。 

。 Behance Network 

网 站 Behance Network 基于 Tag 机 制 , 内 容 涉 及 信息 架构 及 其 他 一 些 特定 类 型 。 可 
以 按 作者 进行 检索 。 

*。， Good Magazine 

Good Magazine 推荐 了 一 些 极 有 趣 的 原创 图 表 , 从 “水 危机 ”到 “食品 券 的 增长 ”到 “ 奥 
巴 马 对 投票 率 的 影响 ”。 

。 Matthew Ericson 

这 个 Blog 展示 了 图 表 设 计 师 Matthew Ericson 及 其 他 人 的 创作 作品 。 

*。， NiXLOG Infographics 

NiXLOG 从 互联 网 上 聚合 了 大 量 信息 可 视 化 的 内 容 , 还 包括 一 份 原创 图 表 : 关于 蔷 
果 电 脑 及 其 消费 观 如 何 普及 的 演变 历程 。 

。 Virtual Water 

Virtual Water 是 一 个 专业 Blog ,主题 是 用 水 量 的 统计 。 它 们 用 招贴 的 形式 展现 信息 
并 (全 部 或 部 分 地 ) 出 版 发 行 。 

。 History Shots 

History Shots 是 一 个 商业 网 站 ,出 售 各 种 主题 的 数据 图 表 及 可 视 化 产品 (招贴 \. 明 信 
片 等 )。 它 们 主要 提供 历史 事件 ,时代 及 包括 政治 .军事 、 体 育 或 其 他 有 趣 科 目 在 内 的 数据 
图 表 。 这 是 一 个 相当 有 趣 的 网 站 ,你 可 以 在 屏幕 上 缩放 图 片 进行 浏览 。 

。， nicolasrapp. com 

nicolasrapp. com 是 一 个 信息 设计 Blog,. 其 作者 为 美 联 社 进行 创作 。 

。 DataViz 

DataViz 搜集 了 许多 漂亮 的 数据 化 设计 。 尽 管 没有 标注 ,但 图 片 已 经 完全 能 说 明 自 
Cs 

。 iGraphics Explained 

iGraphics Explained 这 个 Blog 希望 能 阐明 对 于 图 表 和 数据 可 视 化 的 有 效 性 和 制作 
方式 的 一 些 启 示 。 他 们 展示 了 一 些 来 自 互联 网 的 精美 图 表 , 这 是 一 个 启发 创意 的 好 去 处 ， 
你 还 可 以 在 这 里 认识 到 哪些 图 表 形式 是 有 效 , 而 哪些 不 是 的 。 

。 信息 图 形 的 Flickr 群 组 

Flickr 群 组 可 以 成 为 信息 和 灵感 的 源泉 。 下 面 案例 中 的 图 表 , 大 部 分 来 自 世 界 各 地 
的 不 同时 期 。 这 是 一 个 获取 想法 和 感知 全 球 图 表 设 计 趋 势 的 好 地 方 。 

。 Infografia 


Infographics 拥有 700 多 张 图 表 的 群 组 ,由 120 多 位 成 员 上 传 。 
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。 Infografistas. com 

Infographics News 拥有 350 个 类 目的 发 布 ,来 源 的 种 类 繁多 。 

。 Visual Information 

包含 650 类 目的 群 组 ,从 餐馆 到 图 书馆 地 图 都 有 。 

。 The Info Graphics Pool 

这 个 可 能 是 Flickr 里 这 一 类 群 组 中 规模 最 大 的 了 ,拥有 超过 700 名 成 员 和 1800 个 
类 目 。 

资料 来 源 : http://datavlab. org/2012/01/19/306 
【实验 与 思考 】 
邵 丰 Tahleau 数据 可 视 化 设计 


1. 实验 目的 


(1) 通过 课文 中 介绍 的 一 个 电力 系统 简单 案例 ,尝试 实际 执行 Tableau 数据 可 视 化 设 
计 的 各 项 基本 步骤 ,以 熟悉 Tableau 数据 可 视 化 设计 技巧 ,提高 大 数据 可 视 化 应 用 能 力 。 
(2) 欣赏 Tableau 数据 可 视 化 优秀 作品 ,了 解 Tableau 数据 可 视 化 设计 能 力 。 


2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 安 装 有 Tableau Desktop( 参 考 版 本 为 9.3) 软 件 的 计算 机 。 


3. 实验 内 容 与 步 又 


1) Tableau 数据 可 视 化 设计 实践 

这 一 章 中 ,我 们 以 一 个 电力 系统 的 简单 案例 介绍 了 Tableau 从 连接 数据 到 最 后 工作 
簿 发 布 的 过 程 ,重点 介绍 了 利用 功能 区 创建 视图 ,以 帮助 大 家 熟悉 Tableau 拖 放 式 的 作 图 

请 仔细 阅读 本 章 的 课文 内 容 ,执行 其 中 的 Tableau 数据 可 视 化 操作 ,实际 体验 
Tableau 数据 可 视 化 的 设计 步骤 。 请 在 执行 过 程 中 对 操作 关键 点 做 好 标注 ,在 对 应 的 “ 实 
验 确认 ” 栏 中 打 勾 (~/ ), 并 请 实验 指导 老师 指导 并 确认 ( 据 此 作为 本 实验 与 思考 的 作业 评 
分 依据 ) 。 

请 记录 : 你 是 否 完成 了 上 述 各 个 实例 的 实验 操作 ? 如 果 不 能 顺利 完成 ,请 分 析 可 能 
的 原因 是 什么 ? 

答 


依 : 














2) 浏览 Tableau 可 视 化 库 
请 浏览 Tableau 可 视 化 库 , 其 中 包含 了 十 分 丰富 的 Tableau 可 视 化 优秀 作品 ,这 些 
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(动态 ) 优 秀 作 品 都 可 以 通过 互动 操作 深入 或 者 广泛 了 解 更 多 的 相关 信息 。 

(1) 全 球 石 油 钻井 平台 

在 Tableau 可 视 化 库 中 选择 ( 单 击 )“ 全 球 石油 钻井 平台 ”( 图 10-20)。 图 中 所 示 的 仪 
表 板 一 目 了 然 地 显示 了 全 球 石油 产地 的 十 年 数据 ,以 地 图 形式 提供 了 全 球 石油 产地 鸟 
晤 图 。 


全 球 石油 钻井 平台 


国 诉 豆 。 国志 


钻井 平台 位 置 














200 坪 2002 年 2003 年 2004 年 2005 年 2006 征 2007 年 


图 10-20 Tableau 设计 作品 : 全 球 石油 钻井 平台 


地 图 功能 是 Tableau 的 主要 技术 能 力 之 一 ,地 理 位 置 可 视 化 自然 得 心 应 手 。 读 者 可 
从 右上 方 的 菜单 中 选择 一 个 区 域 ,然后 在 下 方 的 图 表 中 研究 该 区 域 国家 /地 区 的 相关 
情况 。 

(2) iPhone 推 文 

格林 尼 治 标准 时 间 2011 年 10 月 4 日 12:30,Apple 发 布 了 新 的 iPhone 4S ,而 不 是 传 
言 中 的 iPhone 5。 于 是 , 几 小 时 之 内 ,Apple 的 粉丝 们 便 通 过 推 文 表 达 了 他 们 的 失望 之 
情 , 一 时 间 , 推 特 上 带 #iphone 4S 话题 标签 的 推 文 暴 增 。 

在 Tableau 可 视 化 库 中 选择 “iPhone 推 文 ”( 图 10-21) 。 在 线 阅读 Tableau 图 表 时 ,将 
光标 悬 停 在 地 图 上 的 贺 上 方 , 即 可 查看 各 条 推 文 。 

(3) 混合 次 摆 线 

在 Tableau 可 视 化 库 中 选择 “Theta 分 析 ”。 图 10-22 所 示 的 工作 薄 演 示 了 称 为 次 摆 
线 的 曲线 族 。 要 获得 次 摆 线 , 需 先 在 一 个 圆 盘 上 固定 一 个 点 (就 像 自 行车 轮 上 的 反光 片 )， 
然后 沿 着 另 一 个 圆 滚动 。 通 过 过 滤器 、 仪 表 板 和 拖 放 探 索 , 我 们 可 以 利用 后 端 功能 生成 各 
种 各 样 的 有 趣 曲 线 。 借 助 Tableau, 可 以 灵活 地 可 视 化 几乎 所 有 类 型 的 数据 。 


第 10 个 Tableau 数 扎 可 和 钊 出 过 加 


iPhone5 发 布 前 的 推 文 





图 10-21 Tableau 设计 作品 : 日 本 地 震 


混合 次 摆 线 








攻 















(4) 跟踪 股价 

在 Tableau 可 视 化 库 中 选择 “跟踪 估价 ”, 可 以 借助 Tableau 来 方便 地 制作 极 具 冲 击 
力 的 股票 数据 可 视 化 图 表 , 从 中 发 现 机 会 和 风险 。 例如 ,蜡烛 图 就 是 用 于 金融 分 析 的 关键 
图 表 ( 图 10-23)。 利用 这 种 图 表 , 可 以 在 同一 个 视图 中 进行 价格 和 波动 性 分 析 。 在 这 幅 
Tableau 蜡烛 图 中 ,可 通过 紧凑 但 功能 强大 的 视图 跟踪 可 口 可 乐 或 百事 可 乐 的 股价 。 





每 日 股价 此 梧 疯 亿 P3 罕 虹 元 了 县 要 的 每 归 最 这 价 ， 腑 低 价 、 开 衣 价 和 效 各 价 。 颜色 较 注 的 给 大 条 用 于 表 寺 晤 高 人 和 最 低 价 ， 
可 入 于 的 案 生 用 于 表 于 开 主 价 和 家 名 价 、 
图 县 从 上 二 
图 以 WTF 区 
过 公司: 
Els 四 
357 量 357 


选取 年 份 : 
2010 | 图 四 
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552 552 








2010 年 ! 月 5 日 
2010 年 ! 月 7 日 
0lo 年 1 月 11 日 
0l10 年 1 月 13 日 
010 年 ] 月 15 日 
010 年 ] 月 20 日 
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010 年 1 月 25 昌 
O10 年 1 月 28 日 
2010 年 ?月 1 日 
2010 年 ?月 3 日 
32010 年 ?月 5 日 
2010 年 ?月 9 日 


图 10-23 Tableau 设计 作品 : 每 日 股价 


请 记录 : 通过 浏览 .你 对 Tableau 软件 的 可 视 化 数据 分 析 能 力 的 评价 是 什么 ? 
答 : 











4. 实验 总 结 

















5. 实验 评价 (教师 ) 














至 此 ,我 们 顺利 完成 了 “大 数据 可 视 化 ”课程 的 教学 任务 及 其 相关 的 全 部 实验 。 为 巩 
固 通过 实验 所 了 解 和 掌握 的 相关 知识 和 技术 ,请 就 所 学 的 课程 内 容 做 一 个 全 面 的 复习 回 
顾 , 尝 试 完成 指定 案例 (数据 集 ) 的 可 视 化 设计 ,并 就 本 课程 的 学 习 和 实验 做 一 个 系统 


总 结 。 


由 于 篇 幅 有 限 , 如 果 书 中 预 留 的 空白 不 够 ,请 另外 附 纸 张 粘贴 在 边 上 。 


设计 要 求 : 请 应 用 Tableau Desktop 软件 分 析 “ 某 超市 销售 报告 数据 ”, 要 求 至 少 产生 
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111 课程 设计 


种 可 视 化 分 析 图 形 和 一 种 仪表 板 .并 予以 发 布 。 


样本 数据 : 由 于 所 提供 的 数据 集 庞 大 ,用 于 开展 课程 设计 的 案例 样本 数据 将 以 Excel 


电子 文档 形式 ( 某 超 市 销售 报告 数据 . xlsx) 提 供 。 


栏目 说 明 : 案例 样本 中 电子 表格 “订单 ”的 栏目 (变量 ) 共 有 20 列 , 分 别 如 下 。 


(1) 
(2) 
(3) 
(4) 
(5) 
(6) 
(7) 
(8) 
(9) 
(10) 
(11) 
(12) 
(13) 
(14) 
(15) 
(16) 


(A 列 ) 行 ID: 1 一 10 000; 

(B 列 ) 订 单 ID; 

(C 列 ) 订 货 日 期 ; 

(D 列 ) 发 货 日 期 ; 

(下 列 ) 邮 寄 方 式 : 一 级 、 二 级 .标准 级 .当日 ; 
(F 列 ) 客 户 ID; 

(G 列 ) 客 户 名 称 ; 

(CH 列 ) 细 分 : 消费 者 、 小 型 企业 、 公 司 ; 
(I 列 ) 城 市 : 国内 ; 

( 叮 列 ) 省 /市 /自治 区 : 全 国 各 地 ; 

(K 列 ) 国 家 : 中 国 ; 

(L 列 ) 地 区 : 东北、 华北、 华东、 西北、 西南、 中 南 ; 
(M 列 ) 产 品 ID; 

(CN 列 ) 类 别 : 办 公用 品 、 技 术 、 家 具 ; 

(OO 列 ) 子 类 别 : 共 7 种 ; 

(P 列 ) 产 品名 称 ; 


结 


一 
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(17) (Q 列 ) 销 售 额 ; 

(18) (R 列 ) 数 量 ; 

(19) (S 列 ) 折 扣 ; 

(20) (T 列 ) 利 润 

注意 : 将 Excel 数据 读 人 Tableau 后 部 分 栏目 要 调整 数据 类 型 ,例如 “省 /市 /自治 区 ” 
应 调整 为 “地 理 值 ”。 

请 记录 : 

(1) 你 建立 的 可 视 化 图 表 是 什么 (名 字 与 简单 说 明 , 至 少 三 项 )? 



































(2) 你 建立 的 仪表 板 是 什么 (名 字 与 简单 说 明 ,至 少 一 项 )? 
(0 
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(3) 通过 对 超市 销售 数据 的 可 视 化 分 析 , 你 获得 的 数据 发 现 (信息 ) 有 哪些 (至 少 5 
































注意 : 请 保存 你 所 做 的 可 视 化 分 析 的 作品 :以 便 教 师 检查 或 在 班级 演讲 介绍 。 


鲁 而 六 出 种 轴 动 司 负 办 龟 振 







112 课程 实验 总 结 


11.2.1 实验 的 基本 内 容 


(1) 本 学 期 学 习 的 大 数据 可 视 化 知识 和 完成 的 大 数据 可 视 化 实验 主要 有 (请 根据 实 
际 完成 的 实验 情况 填写 ) : 
第 1 章 : 主要 内 容 是 : 











第 2 章 : 主要 内 容 是 : 











第 3 章 : 主要 内 容 是 : 











第 4 章 : 主要 内 容 是 : 











第 5 章 : 主要 内 容 是 : 











第 6 章 : 主要 内 容 是 : 











第 7 章 : 主要 内 容 是 : 











第 8 章 : 主要 内 容 是 : 











第 9 章 : 主要 内 容 是 : 











第 10 章 : 主要 内 容 是 : 











玉 晤 所 可 饥 而 


(2) 请 回顾 并 简 述 : 通过 实验 ,你 初步 了 解 了 哪些 有 关 大 数据 及 其 可 视 化 技术 的 重 
要 概念 (至 少 三 项 )? 
中 名 称 : 
简 述 : 














@ 名 称 : 
简 述 : 














G 名 称 : 
简 述 : 














@ 名 称 : 
简 述 : 














@ 名 称 : 
简 述 : 














11.2.2 实验 的 基本 评价 


(1) 在 全 部 实验 中 ,你 印象 最 深 ,或 者 相 比 较 而 言 你 认为 最 有 价值 的 实验 是 什么 ? 
nm 
你 的 理由 是 : 
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你 的 理由 是 : 








(2) 在 所 有 实验 中 ,你 认为 应 该 得 到 加 强 的 实验 是 哪个 ? 
OD 





你 的 理由 是 : 








© 





第 11 章 锡 加 设计 上 刁 贸 蛤 操 后 


你 的 理由 是 : 








(3) 对 于 本 课程 和 本 书 的 实验 内 容 , 你 认为 应 该 改进 的 其 他 意见 和 建议 








11.2.3 课程 学 习 能 力 测评 


请 根据 你 在 本 课程 中 的 学 习 情 况 ,客观 地 对 自己 在 大 数据 可 视 化 知识 方面 做 一 个 能 
力 测评 。 请 在 表 11-1 的 “测评 结果 ” 栏 中 合适 的 项 下 画 ”/“”。 


表 11-1 课程 学 习 能 力 测 评 



























































测评 结果 
关键 能 力 评价 指标 备注 
很 好 | 较 好 | 一 般 | 勉强 | 较 差 
1. 了 解 大 数据 和 大 数据 时 代 
大 数据 .大 | 2. 熟悉 大 数据 时 代 的 思维 变革 
数据 时 代 与 - 
大 数据 可 视 | 3 部 秋 本 课程 的 在 线 学 习 环境 
化 基础 4. 理解 课文 中 的 典型 导读 案例 
5. 理解 课文 中 的 典型 延伸 阅读 
数据 可 视 化 | 6. 了解 数据 可 视 化 的 应 用 
的 基本 概念 | 7， 了 解数 据 可 视 化 的 主流 设计 工具 与 方法 
8. 熟悉 Excel 数据 图 表 
9. 熟悉 数理 统计 中 的 常用 统计 量 
Excel 图 表 | 10. 熟悉 Excel 数据 可 视 化 方法 及 其 主要 
应 用 (直方 .折线 . 圆 饼 等 ) 
11. 掌握 Excel 数据 图 表 设 计 方法 
12. 理解 数据 引导 可 视 化 设计 
数据 可 视 化 
设计 思想 “| 13. 熟悉 数据 可 视 化 的 过 程 
14. 熟悉 数据 可 视 化 组 织 
15. 熟悉 Tableau 数据 可 视 化 基础 
16. 熟悉 Tableau 数据 可 视 化 设计 方法 
Tableau 数 
据 可 视 化 17. 初步 掌握 Tableau 数据 可 视 化 设计 
方法 
18. 了 解 Tableau 可 视 化 设计 能 力 























为 娄 鼎 人 可 钢 全 











续 表 
测评 结果 
关键 能 力 评价 指标 备注 
很 好 | 较 好 | 一 般 | 勉强 | 较 差 
19. 掌握 通过 网 络 提 高 专业 能 力 、 丰 富 专 
解决 问题 与 业 知 识 的 学 习 方 法 
创新 20. 能 根据 现 有 的 知识 与 技能 创新 地 提出 


说 明 :“ 很 好 ”5 分 ,“ 较 好 ”4 分 ,以 此 类 推 。 全 表 满 分 为 100 分 ,你 的 测评 总 分 为 





有 价值 的 观点 


11.2.4 大 数据 可 视 化 实验 总 结 












































11.2.5 实验 总 结 评价 (教师 ) 
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图 2-15 ”深圳 受 大 面积 雷电 影响 ,图 为 某 日 18 时 至 次 日 0 时 共 记 录 到 的 9119 次 闪电 
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图 3-11 蓝 脑 计划 
IBM 超级 计算 机 “ 蓝 色 基因 ”生成 的 模型 。 作 为 “ 蓝 色 计划 ”的 一 部 分 .该 图 展现 了 在 单个 新 皮层 单 
中 的 12 万 个 刘 其 3000 万 个 连接 .这 是 哺乳 动物 的 大 脑 中 最 复杂 的 一 部 分 。 不 同 颜 色 的 线条 表示 
同 的 脑 电流 频 








(a) (b) 
图 4-2 ”亚马逊 丛林 30 年 变迁 
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(a) (b) 
图 5-15 堆 私 圆 饼 图 
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用 圈 来 代表 人 类 所 有 的 知识 : 读 完小 学 ， 你 有 了 一 些 基础 知识 : ” 读 完 中 学 ， 你 的 知识 多 了 


读 完 硕士 ， 你 在 专业 上 阅读 大 量 文献 ， 接 触 本 





读 完 本 科 ， 你 有 了 专业 方向 : 





又 前 进一步 : 专业 前 沿 知 识 : 
选择 某 一 专题 ， 作 为 主攻 方向 : ”在 主攻 专题 上 潜心 研究 好 几 年 : 终于 取得 了 突破 性 成 就 : 
你 把 人 类 的 知识 推进 了 一 现在 ， 你 看 待 世 界 的 方式 
步 ， 你 就 成 为 博士 : 已 不 同 : 学 无 止境 


NW ™ 


图 6-17 图 解 博 士 是 什么 
( 马 修 。 迈 特 ,http:/V/datafl. ws/25c) 
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图 6-18 “形态 "图 
(穆罕默德 。 阿 克 坦 和 格 约 拉 .http://vimeo. com/37954818) 
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图 7-21 1903 一 2010 年 


加 州 收 入 来 源 
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绘 儿 乐 色彩 图 ” 
(https://bit. ly/lf9sqM1) 
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图 9-15 


Tableau 设计 作品 : 加 州 政府 收入 来 源 
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